Nutch可以用来:
答案 0 :(得分:2)
此处需要注意的另一件事是,您还可以查看此Qurora post,其中我将介绍如何在Nutch中启用重点抓取。
不确定为什么我的第一个回答没有发布,但我想解决 这个。 Nutch不必是批处理模式。 bin / crawl脚本是 但是,您可以调用Nutch的所有临时步骤 (逐步注入,生成,获取,解析,重复数据删除,更新等) 和Nutch已经有一段时间了。
此外,Nutch已经有很长一段时间的得分插件了 支持自适应提取计划和所有Nutch 数据在数据库等等,通过 命令行工具,Java,现在有一个新兴的REST接口 并且还为此创建了一个Python客户端。
我在NASA JPL的团队正致力于通过DARPA改进Nutch Memex项目。 Nutch使用Tika来处理1200+和不断增长的文件 格式(检测,解析,实体提取等)我们也有 Naive Bayes的新插件集中了爬行,Cosine Similarity 得分和其他能力真正使Nutch既广泛又有 专注的爬虫。 Naive Bayes直接将Mahout融入其中 Nutch的。它们存在于1.11-trunk中。
此外,Nutch还集成了Selenium for Deep Web / Ajax / Javascript 爬行,并且已经有很多改进 出现在Nutch,使其成为一个不错的选择。
HTH!
答案 1 :(得分:1)
是的,你可以使用Apache Nutch来做到这一点。
查看Nutch REST API [0](主动开发),它可以让您启动Nutch作为服务,通过HTTP调用提供URL,监视作业的完成情况,然后将数据转储回来。