我正在尝试在Dataproc群集上运行一些python pyspark脚本,但因以下错误而失败:
File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 815, in join
if isinstance(on[0], basestring):
IndexError: list index out of range
我在代码中使用的语法是: -
df1.join(df2, col1)
有什么想法吗?
答案 0 :(得分:1)
Looking at the code,on
是" col1"您传入的参数,Spark中的代码假定如果on is not None
它肯定至少有一个元素。是否有可能意外传入col1
的空数组?也许您可以在致电col1
之前打印join
以确认。