Pyspark:读取带有双引号和逗号的字段的csv文件

时间:2020-08-27 04:33:08

标签: pyspark

我有一个csv文件,我正在通过pyspark读取并加载到postgresql中。它的字段之一是字符串,字符串中包含逗号和双引号。像下面的例子-

1. "RACER ""K"", P.L. 9"
2. "JENIS, B. S. ""N"" JENIS, F. T. ""B"" 5"

Pyspark正在如下解析。这是引起问题的原因,因为当我将数据加载到postgresql且脚本失败时,它会混淆值/列。

1. '\"RACER \"\"K\"\"'
2. '\"JENIS, B. S. \"\"N\"\" JENIS'

我正在使用spark 2.42。如何在pyspark中处理这种情况? 基本上,如果要在双引号内使用逗号或双引号,我想编程。

1 个答案:

答案 0 :(得分:1)

在读取并加载到postgresql中之前,可以尝试使用熊猫删除逗号和双引号。

您可以使用str.replace

df['column_name'] = df['column_name'].str.replace(r"[\"\',]", '')