我有严重的麻烦。 我想计算一千万条记录的关系,但是由于Spark的内存不足,因此处理停止了。 TF-哈希创建了1000万个文档,以创建20,000个维的要素。 首先,我尝试了“-近似相似联接”,但是计算没有收敛。 接下来,我尝试尝试scikit-learn的KNN,但是当我将所有数据带到Driver时,内存溢出了。 还有其他方法吗?
答案 0 :(得分:0)
最近的邻居似乎不属于Spark的MLLib。我想到的选择是找到分布式Spark实现或找到tensorflow实现
在Databricks上吗?最新版本支持分布式Tensorflow。我已经在单个节点Databricks Tensorflow群集上运行了比您大的卷。
快速搜索发现了这些 * tensorflow nearest neighbor * spark nearest neighbor
请注意,我自己还没有尝试过这些。