如何在索引时获取nutch 1.14中的rawContent

时间:2018-05-02 09:11:09

标签: html nutch

我正在尝试为Apache nutch 1.14编写自己的index-html插件。我如何获得" rawContent"在带有版本2.3.1的nutch 1.14中的html我们能够通过WebPage获得它,但是在1.14版本中我们只得到文本。

1 个答案:

答案 0 :(得分:0)

对于Nutch 1.14,您应该已经在索引命令/作业上有选项-addBinaryContent(请参阅https://github.com/apache/nutch/blob/release-1.14/src/java/org/apache/nutch/indexer/IndexingJob.java#L171)。这意味着使用此标志可以将原始字节发送到索引后端。您也可以使用相应的标志将其编码为base64(如果您的索引后端没有字节类型,则非常有用)。