应用错误收集

修改Nutch爬虫以解析页面并从爬网页面获取某些数据

时间：2015-03-16 05:55:51

标签： java web-crawler nutch

我想抓取几个网站并根据语言收集数据，即＆＃34; Java＆＃34;我是Nutch履带式的新手。我刚用HBase完成了Nutch 2.3的设置。如何自定义爬网，以便在解析每个页面时，我可以获取该页面中的链接并从中提取一些数据。如日期，主题等。

谢谢。

1 个答案:

答案 0 :(得分：1)

可能迟到了，但面对同样问题的人。这可以通过提供自己的ParseFilter插件来解决。

您可以在this documentation

了解插件

基本上，您实现了将DocumentFragment对象作为参数的方法解析。从DocumentFragment中，您可以使用xPath解析所需的任何信息。经过解析的数据可以保存在WebPage元数据中。

实现插件后，你只需将它包含在源代码中，在nutch-site.xml中使用，构建就可以了。