应用错误收集

Apache Nutch 2.3.1扩展点在获取时间

时间：2017-09-26 12:03:58

标签： apache hadoop hbase nutch

我已成功配置Hadoop（2.x），Hbase和Nutch 2.3.1。我还抓了几个示例页面进行测试。现在我必须使用开源工具cld2对特定语言进行集中抓取。如果已爬网文档不包含该特定语言，则不应保存该文档（在Hbase中），也不应将其编入索引。在Nutch WIKI中，在获取时没有给出扩展点。有没有其他可行的方法来完成这项工作？

1 个答案:

答案 0 :(得分：0)

目前Nutch附带的fetchers实现中没有扩展点。如果您考虑一下，您需要获取和解析文档（以提取语言），然后您可以编写自己的IndexingFilter以检查文档的语言并决定是否要将其编入索引或不。

这应该是非常难以自己写的。另一方面，对于Nutch 1.x，我们已经有了这个PR https://github.com/apache/nutch/pull/219，可以很容易地移植到2.x上工作，然后你只需要正确的JEXL表达式。

我们已经在Nutch 2.x附带了一个language-identifier插件，您可以查看一下如何实现，并将您自己的集成与cld2添加为一个不同的插件。如果你想使用cld2，那么你需要编写一些解析器（以及索引器）来检测内容中的语言。