加载文件时Pyspark TextParsingException

时间:2018-03-05 10:40:27

标签: python apache-spark pyspark

我正在使用pyspark加载一个包含100万条记录的csv文件,但是收到错误。 TextParsingException:已解析输入的长度(1000001)超过解析器设置中定义的最大字符数(1000000)

我检查了文件中的任何记录是否有大于1000000个字符的数据,但是没有记录是这样的。我文件中的最大记录长度是850。

请帮忙......

npm config set proxy http://myusername:mypassword@proxy.us.somecompany:8080
npm config set https-proxy http://myusername:mypassword@proxy.us.somecompany:8080

1 个答案:

答案 0 :(得分:0)

您可以使用

更改限制每列字符数的解析器设置
option("maxCharsPerColumn", "-1")

所以现在应该这样:

spark.read.format('com.databricks.spark.csv').option("delimiter","\001").option("quote",u"\u0000").option("maxCharsPerColumn", "-1").load(INPUT_PATH)

否则您也可以尝试更改解析器:

.option("parserLib", "commons")