修改Nutch爬虫以解析页面并从爬网页面获取某些数据

时间:2015-03-16 05:55:51

标签: java web-crawler nutch

我想抓取几个网站并根据语言收集数据,即" Java"我是Nutch履带式的新手。我刚用HBase完成了Nutch 2.3的设置。如何自定义爬网,以便在解析每个页面时,我可以获取该页面中的链接并从中提取一些数据。如日期,主题等。

谢谢。

1 个答案:

答案 0 :(得分:1)

可能迟到了,但面对同样问题的人。这可以通过提供自己的ParseFilter插件来解决。

您可以在this documentation

了解插件

基本上,您实现了将DocumentFragment对象作为参数的方法解析。从DocumentFragment中,您可以使用xPath解析所需的任何信息。经过解析的数据可以保存在WebPage元数据中。

实现插件后,你只需将它包含在源代码中,在nutch-site.xml中使用,构建就可以了。