Question

我正在使用pyspark加载一个包含100万条记录的csv文件，但是收到错误。 TextParsingException：已解析输入的长度（1000001）超过解析器设置中定义的最大字符数（1000000）

我检查了文件中的任何记录是否有大于1000000个字符的数据，但是没有记录是这样的。我文件中的最大记录长度是850。

请帮忙......

npm config set proxy http://myusername:mypassword@proxy.us.somecompany:8080
npm config set https-proxy http://myusername:mypassword@proxy.us.somecompany:8080

Answer 1

您可以使用

更改限制每列字符数的解析器设置

option("maxCharsPerColumn", "-1")

所以现在应该这样：

spark.read.format('com.databricks.spark.csv').option("delimiter","\001").option("quote",u"\u0000").option("maxCharsPerColumn", "-1").load(INPUT_PATH)

否则您也可以尝试更改解析器：

.option("parserLib", "commons")

加载文件时Pyspark TextParsingException

1 个答案: