我有一栏充满了指向文档的URL。我正在尝试从每个网址中抓取文字。建议我使用purrr
程序包,特别是map_dfr()
。当我尝试运行以下代码时:
k10<-map_dfr(url,~ read_html(.) %>%
html_nodes("font") %>%
html_text(""))
我收到此错误:
Error in open.connection(x, "rb") : HTTP error 403.
我认为这是因为我抓取速度太快,但是当我尝试放入Sys.sleep()
命令时,它不起作用,R只是说这是一个未使用的参数。
我可以毫无问题地使用字体节点仅刮刮一个网站并抓取所有文本,以便每个句子在数据框中都是一行,但是当尝试同时刮擦所有URL时,我无法使它工作。有想法吗?