在烫伤中读取ctrl分隔符

时间:2014-11-20 17:45:57

标签: scala scalding

我正在尝试在烫伤中读取一个ctrl-a分隔文件。我收到一个错误,说它发现错误的字段数(期望166,找到142),然后它显示它正在尝试读取的行。由于某种原因,它不读取文件的第1个三分之一中的分隔符。这是我正在使用的代码:

Csv(args("input"), separator = "\u0001", fields = schema)
    .read
    .groupBy('var2){group => group.sum[Long]('var3)}
    .write(Tsv(args("output")))

我刚开始烫伤,所以也许我错误/不恰当地使用了CSV功能。关于可能发生什么事的想法?

1 个答案:

答案 0 :(得分:0)

我建议查看它出错的行,看看该字段值中是否嵌入了任何控制字符。 我快速阅读了一个由这个(开头标题!!)控制字符分隔的文件,我能够读得很好。因此,建议您查看数据 - 如果可能,您可以提供样本数据。