SOLR数据输入处理程序(DIH):在索引编制期间提取电子邮件地址并放入另一个字段?

时间:2014-05-07 18:55:38

标签: solr extract dih reindex

我有一个名为main_text的字段,其中包含大型文本条目。

我想通过创建新集合来重新索引我的数据,但我想将此字段中的所有电子邮件地址提取到名为emails_fields的新特殊字段。

最好的方法是什么?

使用什么处理程序? DIH?另一个? 这个新领域应该是什么类型的?

1 个答案:

答案 0 :(得分:0)

要使用DataImportHandler,您应该在data-config.xml文件中添加类似以下的内容。

<field column="email_fields" regex="(/S+@/S+)" sourceColName="main_text"/>

这会查找与正则表达式/S+@/S+匹配的电子邮件地址。这个正则表达式应该更改为更好的实际用途。

字段的类型取决于您要如何搜索它,但它可能应该是stringtext_general,如果您希望每个文档中有多个电子邮件,那么它应该是多值