如何创建以下自定义标记器? 在摄取时,我希望索引我的姓名字段,如下所示。
PUT movies/_doc
{
"name": {
"input": [
"Captain America: The First Avenger",
"America: The First Avenger",
"The First Avenger",
"First Avenger",
"Avenger"
]
}
}
classic tokenizer
会将其索引如下,而不完全是我想要的
[ Captain, America The, First, Avenger ]
做类似的事情,但又不是我真正需要的。只是一点点上下文,当您键入功能时,我正忙于进行搜索,只是尝试进一步提高精度,它确实已经很好用