Apache Nutch 2.3.1扩展点在获取时间

时间:2017-09-26 12:03:58

标签: apache hadoop hbase nutch

我已成功配置Hadoop(2.x),Hbase和Nutch 2.3.1。我还抓了几个示例页面进行测试。现在我必须使用开源工具cld2对特定语言进行集中抓取。如果已爬网文档不包含该特定语言,则不应保存该文档(在Hbase中),也不应将其编入索引。在Nutch WIKI中,在获取时没有给出扩展点。有没有其他可行的方法来完成这项工作?

1 个答案:

答案 0 :(得分:0)

目前Nutch附带的fetchers实现中没有扩展点。如果您考虑一下,您需要获取和解析文档(以提取语言),然后您可以编写自己的IndexingFilter以检查文档的语言并决定是否要将其编入索引或不。

这应该是非常难以自己写的。另一方面,对于Nutch 1.x,我们已经有了这个PR https://github.com/apache/nutch/pull/219,可以很容易地移植到2.x上工作,然后你只需要正确的JEXL表达式。

我们已经在Nutch 2.x附带了一个language-identifier插件,您可以查看一下如何实现,并将您自己的集成与cld2添加为一个不同的插件。如果你想使用cld2,那么你需要编写一些解析器(以及索引器)来检测内容中的语言。