Pyspark加入Dataproc失败

时间:2018-01-04 19:29:29

标签: python pyspark gcp google-cloud-dataproc

我正在尝试在Dataproc群集上运行一些python pyspark脚本,但因以下错误而失败:

File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 815, in join 
if isinstance(on[0], basestring): 
IndexError: list index out of range

我在代码中使用的语法是: -

df1.join(df2, col1)

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

Looking at the codeon是" col1"您传入的参数,Spark中的代码假定如果on is not None它肯定至少有一个元素。是否有可能意外传入col1的空数组?也许您可以在致电col1之前打印join以确认。