Question

运行mllib的示例StreamingKMeansExample时遇到问题我用来训练模型的前2-3个文件的聚类中心都相同。而且我使用的每个测试文件的预测值始终为零。

这是我使用的训练和测试的输入：

作为火车数据（格式示例）

[1.2,0.3]

作为测试数据（格式示例）

（1.0，[1.2,0.2]）

submit命令是这样的：

./bin/spark-submit --master yarn-client --class StreamingKMeansExample |
/home/hduser/streamingkmeans_2.11-0.1.jar hdfs://host:port/user/hduser/train/ |
hdfs://host:port/user/hduser/test/ 1 5 2

我打印时

model.latestModel().clusterCenters

输出为：

C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341316315,62.54858682634605]

和sbt是这样的：

name := "streamingkmeans"

version := "0.1"

scalaVersion := "2.11.6"

libraryDependencies ++= Seq(
     "org.apache.spark" %% "spark-core" % "2.2.0" % "provided",
     "org.apache.spark" %% "spark-streaming" % "2.2.0",
     "org.apache.spark" %% "spark-mllib" % "2.2.0"
)

我在做什么错？代码是从此link

中获取的

示例集群中心都一样

0 个答案: