从mysql而不是seed.txt将URL注入Apache Nutch

时间:2016-09-16 09:47:12

标签: web-crawler nutch

我是Apache Nutch的新手,我想从mysql数据库中动态注入url。 Apache Nutch是否提供了这样的可能性?如果没有,是否有任何类似的实验可供我学习?还是有什么建议吗?

2 个答案:

答案 0 :(得分:3)

正如Julien所说,你应该修改INJECTOR代码来实现这一点。但是,我可以建议一个解决方法。您可以使用命令 bin / nutch startserver 在服务器模式下使用NUTCH,然后从数据库加载种子URL。然后,您可以使用Nutch REST API使用从数据库加载的URL创建种子列表,并将创建的种子文件指向INJECT作业创建服务调用。

您可以在此处找到有关REST api的更多详细信息: -

http://nutch.apache.org/miredot/1.12/index.html#1153761698 要么 https://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI

答案 1 :(得分:1)

Nutch 1.x =>没有开箱即用。您必须修改Injector代码,以便从MySQL读取,但这肯定是可行的。我为很久以前的顾客做过这件事。

或者,你可以使用StormCrawler,它有一个MySQL模块,应该没有额外的工作来使它工作。我们博客上的Cloudsearch tutorial显示了如何将MySQL与SC结合使用。

Nutch 2.x使用GORA作为中间层,IIRC有一个SQL插件。不确定它的状态以及这是否合适。