我有兴趣抓取很多网站。最重要的考虑因素是蜘蛛能够尽可能多地到达现场。大多数蜘蛛缺少的一个关键特性是执行JavaScript的能力。这是爬网ajax驱动的站点所必需的。我非常喜欢Open Source,我需要修改项目的代码。
目前我认为Solr是Lucine的一个非常好的解决方案。 http://lucene.apache.org/solr/features.html
有没有人使用过Solr或Lucine?我对Solr的最大问题是无法执行javascript,但它具有丰富的功能集和可扩展性,这两者都使得Solr具有吸引力。
答案 0 :(得分:4)
Solr不是抓取工具,而是搜索引擎(搜索索引以返回结果)。
那就是说,我非常喜欢heritrix的灵活性。大多数抓取工具都不会执行Javascript(但有些人会像Heritrix一样尝试从中提取链接),因为即使在今天也没有多大意义。问题是,Heritrix将允许您插入自己的类,以便使用已爬网数据执行任何操作。
答案 1 :(得分:2)
试试HTMLUnit。 http://htmlunit.sourceforge.net/
答案 2 :(得分:2)
Solr是一个建立在Lucene之上的搜索引擎。它没有做任何爬行。看看Apache Nutch。破解javascript可能是一个问题,因为他们经常打算将爬虫带到死胡同。
答案 3 :(得分:1)
watir可能对您有用。
答案 4 :(得分:0)
根据javascript模板创建dom的页面,你真的希望在你的蜘蛛中执行完整的javascript。查看Node {的https://github.com/mikeal/spider。