如何使用R进行网页抓取

时间:2018-04-13 18:02:34

标签: r web-scraping web-crawler data-collection

我是网络抓取的初学者,并尝试学习如何实施自动流程以从网络提交搜索字词中收集数据。

我正在处理的具体问题如下:

鉴于stackoverflow网页https://stackoverflow.com/,我提交搜索“网页抓取”一词,并希望在列表中收集所有问题链接和每个问题的内容。

有可能刮掉这些结果吗?

我的计划是创建一个术语列表:

term <- c(“web scraping”, “crawler”, “web spider”)

提交每个学期的研究,并收集问题的问题和内容。

当然,每个结果页面都应该重复这个过程。

不幸的是,对于网络抓取相对较新,我不知道该怎么做。 我已经下载了一些软件包来抓取网页(rvest,RCurl,XML,RCrawler)。

感谢您的帮助

0 个答案:

没有答案