我有一个网络抓取工具,可以将业务名称和业务联系人编号和插入内容写入ElasticSearch
问题是我点不想要在列中插入重复的电话号码
无论如何,我可以在弹性搜索中内部实现这个目标吗?
如果没有,是否有比以下步骤更好的解决方案
获取记录 - >检查重复的电话号码 - >插入
答案 0 :(得分:1)
您需要unique
令牌过滤器:https://www.elastic.co/guide/en/elasticsearch/reference/1.6/analysis-unique-tokenfilter.html
如果电话号码放在一个文档的同一个字段中,那么创建一个标记器,该标记器应该作为标记输出每个电话号码。
对于此tokenizer,定义一个unique类型的过滤器,它将保留唯一的标记。围绕这些方面的东西:
"analyzer": {
"numbers": {
"tokenizer": "[whatever]",
"filter": [
...,
"unique"
]
}
}