如何使用Pyspark在文本文件中查找换行符?

时间:2016-07-29 08:30:10

标签: python apache-spark pyspark

我正在尝试在spark中加载文本文件,我收到类似

的错误
Input row doesn't have expected number of values required by the schema. 31 fields are required while 1 values are provided.

文件大小为20GB。手动无法逐行检查。找到换行符和加载文件的最佳选择是什么?我正在使用pyspark加载。

1 个答案:

答案 0 :(得分:0)

您可以使用pySpark快速检查。

尝试加载您的文件:

rdd = sc.textFile('filePath').map(lambda x: x.split('<yourSeparator>'))
rdd.map(lambda x: len(x)).zipWithIndex().sortByKey().take(5)

这将返回Column lenght的索引及其索引(以0开头)