我正在尝试在烫伤中读取一个ctrl-a分隔文件。我收到一个错误,说它发现错误的字段数(期望166,找到142),然后它显示它正在尝试读取的行。由于某种原因,它不读取文件的第1个三分之一中的分隔符。这是我正在使用的代码:
Csv(args("input"), separator = "\u0001", fields = schema)
.read
.groupBy('var2){group => group.sum[Long]('var3)}
.write(Tsv(args("output")))
我刚开始烫伤,所以也许我错误/不恰当地使用了CSV功能。关于可能发生什么事的想法?
答案 0 :(得分:0)
我建议查看它出错的行,看看该字段值中是否嵌入了任何控制字符。 我快速阅读了一个由这个(开头标题!!)控制字符分隔的文件,我能够读得很好。因此,建议您查看数据 - 如果可能,您可以提供样本数据。