以下是csv文件中的条目:
2020040700:00:00.002354EDT,“ gpmon”,“ gpperfmon”,p28648,th2140592000,“ 10.186.213.11”,“ 23012”,2020-04-06 23:53:01 EDT,0,con77681,cmd176, seg-1,,dx1370982,,sx1,“ LOG”,“ 00000”,“声明:COPY”“ gpmetrics”“。”“ gpcc_disk_history”“(”“主机名”“,”“文件系统”“,” “ STAND”中的“ data_dirs”“,”“ total_bytes”“,”“ bytes_available”“,”“ bytes_used”“,” ctime“”),,,,,“ COPY”“ gpmetrics “”。“” gpcc_disk_history“”(“”主机名“”,“文件系统”“,”“ data_dirs”“,”“ total_bytes”“,”“ bytes_available”“,”“ bytes_used”“,”“ ctime” )FROM STDIN“ ,0 ,,” postgres.c“,1590,
预计将分为29列。
但是: 这两个突出显示的条目引起了问题。考虑第一个条目:
“语句:COPY”“ gpmetrics”“。”“ gpcc_disk_history”“(”“主机名”“,”“文件系统”“,” data_dirs“”,“” total_bytes“”,“” bytes_available“”,“ “ bytes_used”“,”“ ctime”“)来自STDIN”
在这里,它正在按如下方式拆分:
|“语句:COPY ... |”“文件系统”“ |”“ data_dirs”“ |”“ total_bytes”“ |”“ bytes_available”“ |”“ bytes_used”“ |”“ ctime”“)FROM。 .. |
这应该是一个条目。
请找到使用的代码段:
sc =SparkContext.getOrCreate()
sc.addFile("filepath")
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(SparkFiles.get(url),quote='"', header=False, inferSchema= True)