应用错误收集

时间：2018-09-05 14:42:24

标签： nearest-neighbor annoy

我正在尝试找到一种解决方案，以查找文档的最近邻居或近似最近邻居。

现在我正在使用tfidf作为文档的矢量表示。我的数据很大（N〜百万）。如果我对tfidf使用烦恼，则内存不足。我认为这是因为tfidf的维数高（我的词汇量约为200万个中文单词）。

然后我用pysparNN进行了尝试，效果很好。但是我担心的是，随着我的数据大小的增长，pysparNN建立了更大的索引，最终它可能不适合RAM。这是一个绝对的问题，因为pysparNN不像anyy那样使用静态文件。

我想知道什么是找到文本数据最近邻居的好解决方案。现在，我正在研究通过doc2ve使用gensim的烦恼索引

答案 0 :(得分：0)

在文档嵌入方面，我认为tfidf并不是一个很好的解决方案。您可能会尝试使用FastText，LASER，gensim，BERT，ELMO和其他方法来提取更复杂的文本（doc）嵌入，然后使用烦恼或faiss构建索引以检索相似性。