Question

以下是csv文件中的条目：

2020040700：00：00.002354EDT，“ gpmon”，“ gpperfmon”，p28648，th2140592000，“ 10.186.213.11”，“ 23012”，2020-04-06 23:53:01 EDT，0，con77681，cmd176， seg-1，，dx1370982，，sx1，“ LOG”，“ 00000”，“声明：COPY”“ gpmetrics”“。”“ gpcc_disk_history”“（”“主机名”“，”“文件系统”“，” “ STAND”中的“ data_dirs”“，”“ total_bytes”“，”“ bytes_available”“，”“ bytes_used”“，” ctime“”），，，，，“ COPY”“ gpmetrics “”。“” gpcc_disk_history“”（“”主机名“”，“文件系统”“，”“ data_dirs”“，”“ total_bytes”“，”“ bytes_available”“，”“ bytes_used”“，”“ ctime” ）FROM STDIN“ ，0 ,,” postgres.c“，1590，

预计将分为29列。

但是：这两个突出显示的条目引起了问题。考虑第一个条目：

“语句：COPY”“ gpmetrics”“。”“ gpcc_disk_history”“（”“主机名”“，”“文件系统”“，” data_dirs“”，“” total_bytes“”，“” bytes_available“”，“ “ bytes_used”“，”“ ctime”“）来自STDIN”

在这里，它正在按如下方式拆分：

这应该是一个条目。

请找到使用的代码段：

  sc =SparkContext.getOrCreate()
  sc.addFile("filepath")

  sqlContext = SQLContext(sc)
  df = sqlContext.read.csv(SparkFiles.get(url),quote='"', header=False, inferSchema= True)

pyspark-带有字段的csv文件，在双引号内包含双引号并包含逗号

0 个答案: