Question

我的一个输入文件是csv（用逗号分隔）。其中一个字段是地址，其中包含新行字符。因此，当我使用spark读取它时，这会给我带来相当大的麻烦，其中一个输入记录被分成多个记录。

是否有人能够找到解决方案来解决这个问题。目前的解决方法是在读入spark之前删除源端数据中的新行字符。

我想在spark中为此创建一个通用的解决方案。我使用scala dataframe api＆＃39; s。

Answer 1

您可以尝试使用csv阅读器的multiLine选项。

spark.read.csv(file, multiLine=True)