应用错误收集

在运行spark mllib kmeans时，每个阶段在网站上的作用是什么？

时间：2017-09-15 10:03:33

标签： apache-spark k-means

我尝试使用spark mllib kmeans，但是工作挂在舞台“collectAsMap at KMeans.scala：302”。我的代码是由python编写的。有人可以告诉我每个阶段发生了什么，例如“在KMeans.scala收集：436”，“在KMeans.scala聚集：404”，“在KMeans.scala收集地图：302” here is the jobs picture

1 个答案:

答案 0 :(得分：0)

K-means是一种迭代算法，其中在每个迭代点中将点分配给最近的质心，并且基于所分配的点更新质心。重复该过程直到满足某个质量度量。使用多种可能的方法之一计算初始质心，包括随机质心和K均值||。

在Spark中，每次迭代都包含计算新质心的聚合和collectAsMap，其中数据被提取到驱动程序并广播以用于下一次迭代。

第二部分对应于使用K-means ||

的并行初始化

当我尝试Apache Spark的Streaming Kmeans Clustering的官方示例时，为什么我在model.predictOnValues中出现类型错误？
spark 1.2.0 mllib kmeans：Out of Memory Error
TypeError：在Spark Mllib（spark 1.4.0）上运行Kmeans时填充不正确
Spark MLLib中Kmeans ++中的initializationSteps参数究竟是什么？
为什么StreamingKMeans集群中心与常规Kmeans不同
运行Spark MLlib kmeans时得到OutOfMemory
在Spark模块pyspark.mllib.classification中并行化方法的正确用法是什么
在运行spark mllib kmeans时，每个阶段在网站上的作用是什么？
在PySpark中运行KMeans集群
当kmeans运行时获得当前的迭代次数和成本值

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？