我是网络抓取的初学者,并尝试学习如何实施自动流程以从网络提交搜索字词中收集数据。
我正在处理的具体问题如下:
鉴于stackoverflow网页https://stackoverflow.com/,我提交搜索“网页抓取”一词,并希望在列表中收集所有问题链接和每个问题的内容。
有可能刮掉这些结果吗?
我的计划是创建一个术语列表:
term <- c(“web scraping”, “crawler”, “web spider”)
提交每个学期的研究,并收集问题的问题和内容。
当然,每个结果页面都应该重复这个过程。
不幸的是,对于网络抓取相对较新,我不知道该怎么做。 我已经下载了一些软件包来抓取网页(rvest,RCurl,XML,RCrawler)。
感谢您的帮助