运行mllib的示例StreamingKMeansExample时遇到问题 我用来训练模型的前2-3个文件的聚类中心都相同。而且我使用的每个测试文件的预测值始终为零。
这是我使用的训练和测试的输入:
作为火车数据(格式示例)
[1.2,0.3]
作为测试数据(格式示例)
(1.0,[1.2,0.2])
submit命令是这样的:
./bin/spark-submit --master yarn-client --class StreamingKMeansExample |
/home/hduser/streamingkmeans_2.11-0.1.jar hdfs://host:port/user/hduser/train/ |
hdfs://host:port/user/hduser/test/ 1 5 2
我打印时
model.latestModel().clusterCenters
输出为:
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341317296,62.548586826347304]
C: [48.915329341316315,62.54858682634605]
C: [48.915329341316315,62.54858682634605]
和sbt是这样的:
name := "streamingkmeans"
version := "0.1"
scalaVersion := "2.11.6"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "2.2.0" % "provided",
"org.apache.spark" %% "spark-streaming" % "2.2.0",
"org.apache.spark" %% "spark-mllib" % "2.2.0"
)
我在做什么错?代码是从此link
中获取的