我正在使用pyspark加载一个包含100万条记录的csv文件,但是收到错误。 TextParsingException:已解析输入的长度(1000001)超过解析器设置中定义的最大字符数(1000000)
我检查了文件中的任何记录是否有大于1000000个字符的数据,但是没有记录是这样的。我文件中的最大记录长度是850。
请帮忙......
npm config set proxy http://myusername:mypassword@proxy.us.somecompany:8080
npm config set https-proxy http://myusername:mypassword@proxy.us.somecompany:8080
答案 0 :(得分:0)
您可以使用
更改限制每列字符数的解析器设置option("maxCharsPerColumn", "-1")
所以现在应该这样:
spark.read.format('com.databricks.spark.csv').option("delimiter","\001").option("quote",u"\u0000").option("maxCharsPerColumn", "-1").load(INPUT_PATH)
否则您也可以尝试更改解析器:
.option("parserLib", "commons")