通过python运行spark示例kmeans时的ClassNotFoundException

时间:2017-03-03 02:39:27

标签: python apache-spark k-means

我有一个带有6个奴隶的火花星团。并且可以在我的环境中成功运行spark默认示例pi.py

但是我在运行spark默认示例kmeans.py时遇到错误,如下所示。

bsxfun

错误消息是:

counts = histc(X_test(:,1),unique(X_test(:,1)));
testdocs = mat2cell(X_test,counts);

示例kmeans.py由python编写并在python环境中运行。但是我遇到了Java错误。有关这个问题的任何帮助吗?

1 个答案:

答案 0 :(得分:1)

遇到了同样的错误 - 结果是奴隶和主人之间的版本差异。几个细节:

  • Master(Spark 2.0.2)
  • Slave1(Spark 2.0.2)
  • Slave2(Spark 2.0.2 / Spark 2.1.1)

简而言之,这是奇怪的:Slave2上有两个版本的火花。如果进程试图单独使用Spark 211,我会收到您的错误,并且作业无法完成(必须被杀死)。

相反,如果一个进程运行正确的202版本,一切正常。此外,如果正在运行202 spark进程,211版本也可以正常运行(奇怪)。

基本上,我的“答案”是检查各处的版本(包括Spark和Python)。希望有所帮助。