我想抓取几个网站并根据语言收集数据,即" Java"我是Nutch履带式的新手。我刚用HBase完成了Nutch 2.3的设置。如何自定义爬网,以便在解析每个页面时,我可以获取该页面中的链接并从中提取一些数据。如日期,主题等。
谢谢。
答案 0 :(得分:1)
可能迟到了,但面对同样问题的人。这可以通过提供自己的ParseFilter插件来解决。
了解插件基本上,您实现了将DocumentFragment对象作为参数的方法解析。从DocumentFragment中,您可以使用xPath解析所需的任何信息。经过解析的数据可以保存在WebPage元数据中。
实现插件后,你只需将它包含在源代码中,在nutch-site.xml中使用,构建就可以了。