我有一个名为main_text的字段,其中包含大型文本条目。
我想通过创建新集合来重新索引我的数据,但我想将此字段中的所有电子邮件地址提取到名为emails_fields的新特殊字段。
最好的方法是什么?
使用什么处理程序? DIH?另一个? 这个新领域应该是什么类型的?
答案 0 :(得分:0)
要使用DataImportHandler,您应该在data-config.xml
文件中添加类似以下的内容。
<field column="email_fields" regex="(/S+@/S+)" sourceColName="main_text"/>
这会查找与正则表达式/S+@/S+
匹配的电子邮件地址。这个正则表达式应该更改为更好的实际用途。
字段的类型取决于您要如何搜索它,但它可能应该是string
或text_general
,如果您希望每个文档中有多个电子邮件,那么它应该是多值