我的一个输入文件是csv(用逗号分隔)。其中一个字段是地址,其中包含新行字符。因此,当我使用spark读取它时,这会给我带来相当大的麻烦,其中一个输入记录被分成多个记录。
是否有人能够找到解决方案来解决这个问题。目前的解决方法是在读入spark之前删除源端数据中的新行字符。
我想在spark中为此创建一个通用的解决方案。我使用scala dataframe api' s。
答案 0 :(得分:0)
您可以尝试使用csv阅读器的multiLine
选项。
spark.read.csv(file, multiLine=True)