用引号引起的字符串读取火花数据

时间:2018-12-13 20:17:48

标签: apache-spark apache-spark-sql

我的csv数据文件如下 每行以回车符('\ r')

结尾

但某些文本值是具有行定界符作为换行符('\ n')的多行字段。如何使用Spark数据源api选项来解决这些问题。

enter image description here

1 个答案:

答案 0 :(得分:0)

Spark 2.2.0添加了对多行CSV文件进行解析的支持。您可以使用以下命令阅读包含多行代码的csv:

val df = spark.read
  .option("sep", ",")
  .option("quote", "")
  .option("multiLine", "true")
  .option("inferSchema", "true")
  .csv(file_name)