应用错误收集

语言特定网站的Apache Nutch标题解析问题

时间：2018-08-02 11:22:27

标签： parsing nutch apache-tika nutch2

我已经用Hadoop 2.7.5和Hbase 0.98配置了Apache Nutch 2.3.1。我必须爬一些乌尔都语网站。我正在使用其默认解析器，即html，tika。某些文档在乌尔都语中具有标题，但可以，但是某些文档在乌尔都语中具有标题，其标题1即h1具有原始标题，例如bbc-page。类似地，在某些情况下，元标记具有保留标题。是否有任何内置选项（解析器）可以处理此选项，因此，如果可用，应该为标题选择h1。

或者，如果我必须这样做，有什么可能的方法达到目的。

1 个答案:

答案 0 :(得分：2)

如果在DOM树（https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251）中找到了，Nutch将使用title标签，为此，您需要在解析器插件中编写自定义逻辑。但是真正的问题是，您将如何识别“不良” title标签？将是一些特定的内容（例如URL）。

无论如何，您都需要在解析器或索引插件中编写自己的插件（例如在特定条件下获取字段并将其复制到title字段）。