我浏览过某些博客,说通用句子编码器用于语义相似性的弹性搜索,我们可以使用BERT代替ULSE吗?他们还说嵌入搜索必须遍历所有文档。可以对其进行优化吗?
https://www.elastic.co/blog/text-similarity-search-with-vectors-in-elasticsearch
答案 0 :(得分:1)
当然 - 你可以使用 BERT。然而,它将导致将数据转换为向量嵌入的运行时间更长。顺便说一句,您应该探索其他相似性搜索替代方案,例如 pinecone.io,它提供托管矢量搜索服务。
答案 1 :(得分:0)
绝对的!您只需要使用dense_vectors 来搜索向量,这正是BERT 所使用的。
有关密集向量的更多信息: https://www.elastic.co/guide/en/elasticsearch/reference/current/dense-vector.html
有关如何优化嵌入搜索的更多信息,您可以查看https://www.gsitechnology.com/sites/default/files/AppNotes/GSIT-Elasticsearch-Plugin-AppBrief.pdf