在建立索引之前先替换已解析的内容

时间:2018-12-24 09:47:17

标签: nutch

我正在使用螺母1.15。我想在获取索引之前替换一些已解析内容的字符串。

是否可以编写正则表达式并替换内容?

示例:

Content : "This is the crawled page"

I want to replace "page" with string "content"

1 个答案:

答案 0 :(得分:0)

因为您要在内容(分析的文本)中进行替换。您可以编写类似于https://github.com/apache/nutch/tree/master/src/plugin/index-replace的自定义IndexFilter,以便在将数据发送到存储设备之前对其进行操作。

以前的插件仅适用于元数据字段,但应提供有关如何构建自己的插件的良好概述。

在Solr方面,您也可以执行类似的操作,例如看一下blog post