我有一个CSV文件,我想读入DataFrame
以下是我的文件示例(最后一列可能包含带空格的字符串):
C1 C2 C3 1 2 ab cd 11 12 xx yz 5 6 mm nn pl
我尝试使用以下方式阅读此文件:
spark.read.csv("myFile",header=True, mode="DROPMALFORMED",sep=' ')
但它失败了(所有行都格格不入)
为了成功读取此文件,我需要先更新它(删除空格,添加下划线等):
C1 C2 C3 1 2 ab_cd 11 12 xx_yz 5 6 mm_nn_pl
有没有办法在不更改文件的情况下将文件读入CSV?
我还尝试使用ignoreLeadingWhiteSpace和ignoreTrailingWhiteSpace属性但没有成功。
spark.read.csv("myFile",header=True, mode="DROPMALFORMED",sep=' ', ignoreLeadingWhiteSpace=True, ignoreTrailingWhiteSpace=True)
感谢您的帮助