我有一些与示例csv BLOB一起使用的Pyspark代码,然后我决定将其指向更大的数据集。这行:
df= df.withColumn("TransactionDate", df["TransactionDate"].cast(TimestampType()))
现在抛出此错误:
AnalysisException: u'Cannot resolve column name "TransactionDate" among ("TransactionDate","Country ...
TransactionDate显然是数据集中的一列,所以为什么突然不起作用?
答案 0 :(得分:0)
好吧,我知道了。如果遇到此问题,请检查定界符。在我的新数据集中,它是“,”,而在我的较小样本中,它是“ |”
df = spark.read.format(file_type).options(header='true', quote='"', delimiter=",",ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)