示例集群中心都一样

时间:2018-09-17 11:25:22

标签: scala apache-spark spark-streaming apache-spark-mllib

运行mllib的示例StreamingKMeansExample时遇到问题 我用来训练模型的前2-3个文件的聚类中心都相同。而且我使用的每个测试文件的预测值始终为零。

这是我使用的训练和测试的输入:

作为火车数据(格式示例)

  

[1.2,0.3]

作为测试数据(格式示例)

  

(1.0,[1.2,0.2])

submit命令是这样的:

./bin/spark-submit --master yarn-client --class StreamingKMeansExample |
/home/hduser/streamingkmeans_2.11-0.1.jar hdfs://host:port/user/hduser/train/ |
hdfs://host:port/user/hduser/test/ 1 5 2

我打印时

model.latestModel().clusterCenters 

输出为:

C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341316315,62.54858682634605]

和sbt是这样的:

name := "streamingkmeans"

version := "0.1"

scalaVersion := "2.11.6"

libraryDependencies ++= Seq(
     "org.apache.spark" %% "spark-core" % "2.2.0" % "provided",
     "org.apache.spark" %% "spark-streaming" % "2.2.0",
     "org.apache.spark" %% "spark-mllib" % "2.2.0"
)

我在做什么错?代码是从此link

中获取的

0 个答案:

没有答案