我个人需要抓取/自动访问我的linkedin帐户(复制我的联系人等),显然该网站太难以使用wget,urllib等。
我无法使用LinkedIn API,因为它恰好限制了我感兴趣的一些用例。
我精通Python和Javascript。我过去曾经使用过webdriver进行小型抓取项目,但是很久以前,重新学习它与学习幻像有相似的开销。
我不打算运行任何类型的基于群集的高容量抓取操作,这一切都将在我的本地计算机上以适当的速率限制运行,以免惹恼掉。这主要是为了个人便利,自动化等。
我听说过关于幻影的好消息,但是我想知道它对webdriver有什么好处(反之亦然)。我猜phantomjs是“无头”的,这意味着它实际上不需要运行浏览器,我想这样可以更容易地编写命令行脚本或消耗更少的资源或其他一些我希望向我解释的属性! / p>
我可以理解webscraping程序应该是javascript的论点,因为它更像是一种浏览器本地语言,但是很想知道这是否是人们使用phantomjs(或其中一个表兄弟)的主要原因
答案 0 :(得分:0)
我已经使用Selenium和Phantom / Casper来完成抓取工作,并且还在功能测试工作中使用它们。如果我打算按你描述的那样做,我会选择CasperJS。我会选择CasperJS而不是PhantomJS,因为:
选择CasperJS而不是Selenium的原因:
由于你精通Python和JavaScript,我认为以上都不是杀手锏的原因。你选择哪个并不重要,努力将大致相同。