使用IndexedRowMatrix和spark-submit时toDF错误但在pyspark中有效

时间:2017-10-01 20:41:13

标签: apache-spark pyspark

我的代码实际上并没有使用toDF,但显然是IndexedRowMatrix。代码在pyspark shell中运行得很好,但是当我使用spark-submit尝试它时,我得到以下错误...

Traceback (most recent call last):
File "/pathtofile/code.py", line 22, in 
<module>
mat = IndexedRowMatrix(mat_indexed_rows)
File "/opt/cloudera/parcels/CDH-5.11.1- 1.cdh5.11.1.p0.4/lib/spark/python/lib/pyspark.zip/pyspark/mllib/linalg/distributed.py", line 232, in __init__
AttributeError: 'PipelinedRDD' object has no attribute 'toDF'

因为这条线......

mat = IndexedRowMatrix(mat_indexed_rows)

我看到了相关的问题,建议使用SQLContext但是这会打破我需要它成为SparkContext对象的其他代码行。

有没有办法解决这个错误?

0 个答案:

没有答案