pyspark-带有字段的csv文件,在双引号内包含双引号并包含逗号

时间:2020-04-17 13:39:57

标签: pyspark

以下是csv文件中的条目:

2020040700:00:00.002354EDT,“ gpmon”,“ gpperfmon”,p28648,th2140592000,“ 10.186.213.11”,“ 23012”,2020-04-06 23:53:01 EDT,0,con77681,cmd176, seg-1,,dx1370982,,sx1,“ LOG”,“ 00000”,“声明:COPY”“ gpmetrics”“。”“ gpcc_disk_history”“(”“主机名”“,”“文件系统”“,” “ STAND”中的“ data_dirs”“,”“ total_bytes”“,”“ bytes_available”“,”“ bytes_used”“,” ctime“”),,,,,“ COPY”“ gpmetrics “”。“” gpcc_disk_history“”(“”主机名“”,“文件系统”“,”“ data_dirs”“,”“ total_bytes”“,”“ bytes_available”“,”“ bytes_used”“,”“ ctime” )FROM STDIN“ ,0 ,,” postgres.c“,1590,

预计将分为29列。

但是: 这两个突出显示的条目引起了问题。考虑第一个条目:

“语句:COPY”“ gpmetrics”“。”“ gpcc_disk_history”“(”“主机名”“,”“文件系统”“,” data_dirs“”,“” total_bytes“”,“” bytes_available“”,“ “ bytes_used”“,”“ ctime”“)来自STDIN”

在这里,它正在按如下方式拆分:

|“语句:COPY ... |”“文件系统”“ |”“ data_dirs”“ |”“ total_bytes”“ |”“ bytes_available”“ |”“ bytes_used”“ |”“ ctime”“)FROM。 .. |

这应该是一个条目。

请找到使用的代码段:

  sc =SparkContext.getOrCreate()
  sc.addFile("filepath")

  sqlContext = SQLContext(sc)
  df = sqlContext.read.csv(SparkFiles.get(url),quote='"', header=False, inferSchema= True)

0 个答案:

没有答案