应用错误收集

如何从1,000,000行和20,000个特征中获取最近的邻居矩阵？

时间：2018-12-22 14:32:20

标签： python apache-spark pyspark knn databricks

我有严重的麻烦。我想计算一千万条记录的关系，但是由于Spark的内存不足，因此处理停止了。 TF-哈希创建了1000万个文档，以创建20,000个维的要素。首先，我尝试了“-近似相似联接”，但是计算没有收敛。接下来，我尝试尝试scikit-learn的KNN，但是当我将所有数据带到Driver时，内存溢出了。还有其他方法吗？

1 个答案:

答案 0 :(得分：0)

最近的邻居似乎不属于Spark的MLLib。我想到的选择是找到分布式Spark实现或找到tensorflow实现

在Databricks上吗？最新版本支持分布式Tensorflow。我已经在单个节点Databricks Tensorflow群集上运行了比您大的卷。

快速搜索发现了这些 * tensorflow nearest neighbor * spark nearest neighbor

请注意，我自己还没有尝试过这些。

如何在mysql中获取最近的行？
找到两组矩阵之间的最近点对
如何使用weka从命令行计算最近邻居？
OSM如何获取最近的节点
从数组中找出最近的2个点
当我使用CGAL :: K_neighbor_search进行最近邻搜索时，如何获得最近点的索引？
我怎么能循环呢？互斥的最近邻居
CGAL：获取最近邻居的信息
k-nearest alg：如何手动设置K？
如何从1,000,000行和20,000个特征中获取最近的邻居矩阵？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？