使用CrawlDbReader读取Nutch爬网数据

时间:2012-01-09 08:01:41

标签: nutch web-crawler

我正在使用nutch 1.4来实现一个集中的爬虫。任何人都可以告诉我如何在我的 JSP 程序中使用nutch CrawlDbReader,LinkDbReader SegmentReader API ,这样我就可以为我的项目创建自定义UI 。 具体来说,我需要向抓取数据发出 readdb readseg 等命令,并通过浏览器获取输出。

1 个答案:

答案 0 :(得分:0)

这些API是否有一些特殊之处使得这不仅仅是“将数据从服务器传递到客户端”问题? 您可以使用API​​来获取数据。只要看看nutch.sh如何使用它们,以及如何构建main()并执行类似的操作。然后通过XML或JSON或任何其他方式将数据传递给客户端。