文档相似性搜索-烦人和pysparNN

时间:2018-09-05 14:42:24

标签: nearest-neighbor annoy

我正在尝试找到一种解决方案,以查找文档的最近邻居或近似最近邻居。

现在我正在使用tfidf作为文档的矢量表示。我的数据很大(N〜百万)。如果我对tfidf使用烦恼,则内存不足。我认为这是因为tfidf的维数高(我的词汇量约为200万个中文单词)。

然后我用pysparNN进行了尝试,效果很好。但是我担心的是,随着我的数据大小的增长,pysparNN建立了更大的索引,最终它可能不适合RAM。这是一个绝对的问题,因为pysparNN不像anyy那样使用静态文件。

我想知道什么是找到文本数据最近邻居的好解决方案。现在,我正在研究通过doc2ve使用gensim的烦恼索引

1 个答案:

答案 0 :(得分:0)

在文档嵌入方面,我认为tfidf并不是一个很好的解决方案。 您可能会尝试使用FastText,LASER,gensim,BERT,ELMO和其他方法来提取更复杂的文本(doc)嵌入,然后使用烦恼或faiss构建索引以检索相似性。