我正在尝试从75,000篇关于知识网的文章中收集数据。所有数据都可以在每篇文章的网页上查看。作为一个绝对的编程初学者,我不确定除了手动之外如何做到这一点。我是否可以在R或任何其他平台上使用任何代码直接从网页中提取数据而无需下载所有文章?
答案 0 :(得分:1)
rvest
是用于废弃一般网络数据的一个非常好的R包。它几乎可以解决python库Beautiful Soup
或Scrapy
所做的一切。
XML
是另一个可用于网页报废的包。
对于报废Twitter,您可以使用twitteR
包和Facebook Rfacebook
包。
使用RTidyHTML
包来纠正HTML中的错误。