基于TFIDF的大型语料库搜索

时间:2019-03-05 22:54:22

标签: apache-spark lucene tf-idf

我有一个500M的大型文档语料库,必须对该文档进行索引,而且我有大量的输入10亿,我需要匹配该语料库中最接近的文档。

我正在使用TF-IDF创建语料库的向量表示,并为语料库中存在的每个术语创建了反向文档索引(如Lucene)。对于需要匹配的数据集(1B),我使用文档反索引来评估文档匹配,然后评估相关文档上的余弦相似度。

我正在使用Apache Spark运行计算,并且此解决方案无法扩展。 100个文档的搜索花费了10分钟,我感到此解决方案无法扩展。当我在线搜索时,我看到诸如创世纪,稀疏列计算等一些选项。

请您分享您的想法?我必须使用Scala和Spark,但我无法更改它。

0 个答案:

没有答案