语言特定网站的Apache Nutch标题解析问题

时间:2018-08-02 11:22:27

标签: parsing nutch apache-tika nutch2

我已经用Hadoop 2.7.5和Hbase 0.98配置了Apache Nutch 2.3.1。我必须爬一些乌尔都语网站。我正在使用其默认解析器,即html,tika。某些文档在乌尔都语中具有标题,但可以,但是某些文档在乌尔都语中具有标题,其标题1即h1具有原始标题,例如bbc-page。类似地,在某些情况下,元标记具有保留标题。是否有任何内置选项(解析器)可以处理此选项,因此,如果可用,应该为标题选择h1。

或者,如果我必须这样做,有什么可能的方法达到目的。

1 个答案:

答案 0 :(得分:2)

如果在DOM树(https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251)中找到了,Nutch将使用title标签,为此,您需要在解析器插件中编写自定义逻辑。但是真正的问题是,您将如何识别“不良” title标签?将是一些特定的内容(例如URL)。

无论如何,您都需要在解析器或索引插件中编写自己的插件(例如在特定条件下获取字段并将其复制到title字段)。