应用错误收集

我有一个500M的大型文档语料库，必须对该文档进行索引，而且我有大量的输入10亿，我需要匹配该语料库中最接近的文档。

我正在使用TF-IDF创建语料库的向量表示，并为语料库中存在的每个术语创建了反向文档索引（如Lucene）。对于需要匹配的数据集（1B），我使用文档反索引来评估文档匹配，然后评估相关文档上的余弦相似度。

我正在使用Apache Spark运行计算，并且此解决方案无法扩展。 100个文档的搜索花费了10分钟，我感到此解决方案无法扩展。当我在线搜索时，我看到诸如创世纪，稀疏列计算等一些选项。

请您分享您的想法？我必须使用Scala和Spark，但我无法更改它。