为什么我的代码为什么不从每个URL中抓取所有文本

时间:2019-04-25 10:43:40

标签: r web-scraping

我有一栏充满了指向文档的URL。我正在尝试从每个网址中抓取文字。建议我使用purrr程序包,特别是map_dfr()。当我尝试运行以下代码时:

k10<-map_dfr(url,~ read_html(.) %>% 
     html_nodes("font") %>% 
    html_text(""))

我收到此错误:

Error in open.connection(x, "rb") : HTTP error 403.

我认为这是因为我抓取速度太快,但是当我尝试放入Sys.sleep()命令时,它不起作用,R只是说这是一个未使用的参数。

我可以毫无问题地使用字体节点仅刮刮一个网站并抓取所有文本,以便每个句子在数据框中都是一行,但是当尝试同时刮擦所有URL时,我无法使它工作。有想法吗?

0 个答案:

没有答案