我的代码实际上并没有使用toDF,但显然是IndexedRowMatrix。代码在pyspark shell中运行得很好,但是当我使用spark-submit尝试它时,我得到以下错误...
Traceback (most recent call last):
File "/pathtofile/code.py", line 22, in
<module>
mat = IndexedRowMatrix(mat_indexed_rows)
File "/opt/cloudera/parcels/CDH-5.11.1- 1.cdh5.11.1.p0.4/lib/spark/python/lib/pyspark.zip/pyspark/mllib/linalg/distributed.py", line 232, in __init__
AttributeError: 'PipelinedRDD' object has no attribute 'toDF'
因为这条线......
mat = IndexedRowMatrix(mat_indexed_rows)
我看到了相关的问题,建议使用SQLContext但是这会打破我需要它成为SparkContext对象的其他代码行。
有没有办法解决这个错误?