应用错误收集

在线数据收集

时间：2015-11-18 16:36:13

标签： r web-scraping data-collection

我正在尝试从75,000篇关于知识网的文章中收集数据。所有数据都可以在每篇文章的网页上查看。作为一个绝对的编程初学者，我不确定除了手动之外如何做到这一点。我是否可以在R或任何其他平台上使用任何代码直接从网页中提取数据而无需下载所有文章？

1 个答案:

答案 0 :(得分：1)

rvest是用于废弃一般网络数据的一个非常好的R包。它几乎可以解决python库Beautiful Soup或Scrapy所做的一切。

XML是另一个可用于网页报废的包。

对于报废Twitter，您可以使用twitteR包和Facebook Rfacebook包。

使用RTidyHTML包来纠正HTML中的错误。