我正在尝试在spark中加载文本文件,我收到类似
的错误Input row doesn't have expected number of values required by the schema. 31 fields are required while 1 values are provided.
文件大小为20GB。手动无法逐行检查。找到换行符和加载文件的最佳选择是什么?我正在使用pyspark加载。
答案 0 :(得分:0)
您可以使用pySpark快速检查。
尝试加载您的文件:
rdd = sc.textFile('filePath').map(lambda x: x.split('<yourSeparator>'))
rdd.map(lambda x: len(x)).zipWithIndex().sortByKey().take(5)
这将返回Column lenght的索引及其索引(以0开头)