Question

我正在尝试在spark中加载文本文件，我收到类似

的错误

Input row doesn't have expected number of values required by the schema. 31 fields are required while 1 values are provided.

文件大小为20GB。手动无法逐行检查。找到换行符和加载文件的最佳选择是什么？我正在使用pyspark加载。

Answer 1

您可以使用pySpark快速检查。

尝试加载您的文件：

rdd = sc.textFile('filePath').map(lambda x: x.split('<yourSeparator>'))
rdd.map(lambda x: len(x)).zipWithIndex().sortByKey().take(5)

这将返回Column lenght的索引及其索引（以0开头）