即使安装了Numpy,使用MLlib时也会出现NumPy异常

时间:2015-10-09 19:12:48

标签: python numpy apache-spark pyspark apache-spark-mllib

这是我尝试执行的代码:

from pyspark.mllib.recommendation import ALS
iterations=5
lambdaALS=0.1
seed=5L
rank=8
model=ALS.train(trainingRDD,rank,iterations, lambda_=lambdaALS, seed=seed)

当我运行依赖于numpy的model=ALS.train(trainingRDD,rank,iterations, lambda_=lambdaALS, seed=seed)命令时,Spark使用的Py4Java库会抛出以下消息:

Py4JJavaError: An error occurred while calling o587.trainALSModel.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 67.0 failed 4 times, most recent failure: Lost task 0.3 in stage 67.0 (TID 195, 192.168.161.55): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/home/platform/spark/python/lib/pyspark.zip/pyspark/worker.py", line 98, in main
    command = pickleSer._read_with_length(infile)
  File "/home/platform/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 164, in _read_with_length
    return self.loads(obj)
  File "/home/platform/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 421, in loads
    return pickle.loads(obj)
  File "/home/platform/spark/python/lib/pyspark.zip/pyspark/mllib/__init__.py", line 27, in <module>
Exception: MLlib requires NumPy 1.4+

NumPy 1.10安装在错误消息中指定的计算机上。 此外,我在Jupyter笔记本中直接执行以下命令时获得版本1.9.2: import numpy numpy.version.version

我显然运行的是早于1.4的NumPy版本,但我不知道在哪里。如何判断更新我的NumPy版本需要哪台机器?

2 个答案:

答案 0 :(得分:16)

这是Mllib初始化代码中的错误

import numpy
if numpy.version.version < '1.4':
    raise Exception("MLlib requires NumPy 1.4+")

&#39; 1.10&#39;是&lt;来自&#39; 1.4&#39; 您可以使用NumPy 1.9.2。

如果你必须使用NumPy 1.10并且不想升级到spark 1.5.1。 手动更新代码。 https://github.com/apache/spark/blob/master/python/pyspark/mllib/init.py

答案 1 :(得分:0)

看起来您安装了两个版本的numpy,而pyspark正在导入旧版本。要确认这一点,您可以执行以下操作:

import numpy
print numpy.__version__
print numpy.__path__

这可能会给你1.9.2和它的路径。现在这样做:

import pyspark
print pyspark.numpy.__version__
print pyspark.numpy.__path__

它是否从另一条路径加载不同的numpy?如果是,删除它应该最有可能解决问题。