Spark无法使用奇怪的三重引号解析CSV

时间:2018-08-29 14:44:27

标签: scala apache-spark

所以我有一个包含16个字段的csv文件,尤其是这两条记录无法正确解析

$page2="home.php"

header( "refresh:2;url=<?php echo $page2  ?>" );

预期的指标-

1,"X","X",,"Y ""Y"", Y, Y","Y,Y,Y,Y,Y,Y,Y,Y,Y",,,,,,"X",,,,"X"
2,"X","X",,"""Y"" Y, Y","Y,Y,Y,Y",,,,,,"X","X",,,"X"

例如,现在1|"X"|"X"||"Y ""Y"", Y, Y"|"Y,Y,Y,Y,Y,Y,Y,Y,Y"||||||"X"||||"X" 2|"X"|"X"|"""Y"" Y, Y"|"Y,Y,Y,Y"||||||"X"|"X"|||"X" 已将该字段正确解析为单个列,但是"Y,Y,Y,Y,Y,Y,Y,Y,Y""""Y"" Y, Y"失败。无论如何,当使用spark从csv读取时,是否可以纠正此问题?有选择吗?我可以使用吗?

注意-输入的数据无论如何都不能更改,因此在转义数据中转义双引号是不可行的。

1 个答案:

答案 0 :(得分:0)

我尝试过如下操作,并且有效

spark.read.format(“ csv”)。load(“ path”)。show