Question

所以我有一个包含16个字段的csv文件，尤其是这两条记录无法正确解析

$page2="home.php"

header( "refresh:2;url=<?php echo $page2  ?>" );

预期的指标-

1,"X","X",,"Y ""Y"", Y, Y","Y,Y,Y,Y,Y,Y,Y,Y,Y",,,,,,"X",,,,"X"
2,"X","X",,"""Y"" Y, Y","Y,Y,Y,Y",,,,,,"X","X",,,"X"

例如，现在1|"X"|"X"||"Y ""Y"", Y, Y"|"Y,Y,Y,Y,Y,Y,Y,Y,Y"||||||"X"||||"X" 2|"X"|"X"|"""Y"" Y, Y"|"Y,Y,Y,Y"||||||"X"|"X"|||"X"已将该字段正确解析为单个列，但是"Y,Y,Y,Y,Y,Y,Y,Y,Y"和"""Y"" Y, Y"失败。无论如何，当使用spark从csv读取时，是否可以纠正此问题？有选择吗？我可以使用吗？

注意-输入的数据无论如何都不能更改，因此在转义数据中转义双引号是不可行的。

Answer 1

我尝试过如下操作，并且有效

spark.read.format（“ csv”）。load（“ path”）。show

Spark无法使用奇怪的三重引号解析CSV

1 个答案: