我正在尝试找到一种解决方案,以查找文档的最近邻居或近似最近邻居。
现在我正在使用tfidf作为文档的矢量表示。我的数据很大(N〜百万)。如果我对tfidf使用烦恼,则内存不足。我认为这是因为tfidf的维数高(我的词汇量约为200万个中文单词)。
然后我用pysparNN进行了尝试,效果很好。但是我担心的是,随着我的数据大小的增长,pysparNN建立了更大的索引,最终它可能不适合RAM。这是一个绝对的问题,因为pysparNN不像anyy那样使用静态文件。
我想知道什么是找到文本数据最近邻居的好解决方案。现在,我正在研究通过doc2ve使用gensim的烦恼索引
答案 0 :(得分:0)
在文档嵌入方面,我认为tfidf并不是一个很好的解决方案。 您可能会尝试使用FastText,LASER,gensim,BERT,ELMO和其他方法来提取更复杂的文本(doc)嵌入,然后使用烦恼或faiss构建索引以检索相似性。