我正在使用螺母1.15。我想在获取索引之前替换一些已解析内容的字符串。
是否可以编写正则表达式并替换内容?
示例:
Content : "This is the crawled page"
I want to replace "page" with string "content"
答案 0 :(得分:0)
因为您要在内容(分析的文本)中进行替换。您可以编写类似于https://github.com/apache/nutch/tree/master/src/plugin/index-replace的自定义IndexFilter
,以便在将数据发送到存储设备之前对其进行操作。
以前的插件仅适用于元数据字段,但应提供有关如何构建自己的插件的良好概述。
在Solr方面,您也可以执行类似的操作,例如看一下blog post