我正在开展一个项目,需要访问大约1000个网站并从每个网站中提取信息。这些信息是官员在其政治任期内的开始和结束日期。
我的编程经验有限。 R是一个统计包,我认为更容易学习。 Python会更强大。但学习时间会很长。
我的问题是,R是否足以处理这项任务。如果是,将涉及哪些包。是否有任何关于R网页报废的有用教程,您可以推荐。我正在阅读http://www.r-bloggers.com/。如果没有,是否有任何关于Python webscrapping的教程,你会推荐。
答案 0 :(得分:2)
是的,R足以完成您的任务。您可以使用包" XML"。看看这个 quick guide
如果R或python是您的任务的最佳工具,取决于您下载后要对数据执行的操作。
答案 1 :(得分:0)
在这种情况下,Python将是我的首选。 R不是一门容易学习的语言,而Python的设计就是这样。你会发现很多教程可以帮助你入门。
答案 2 :(得分:0)
我认为有足够的资源让python能够在一天到几天内完成你想要做的事情。网上有很多示例代码,而且python的足够库使得抓取网站变得轻而易举。查看requests,Beautiful Soup和lxml