用pyspark双引号读取csv(Spark 2.1.1)

时间:2017-06-21 09:19:19

标签: python csv apache-spark pyspark double-quotes

我有几个非常大的csv文件(几GB)使用双引号,即它看起来像这样

first field,"second, field","third ""field"""

出于性能原因,我想将它们转换为镶木地板文件,然后执行进一步的分析和转换步骤。为此,我使用pyspark功能构建来读取csv,即

df = spark.read.csv(file_name, schema=schema, escape='"')
df.write.parquet(base_dir+"/parquet/"+name, partitionBy="year")

在读取csv for spark时,我找不到双引号的任何特定选项,因为你可以看到我使用了“作为转义字符。

到目前为止它似乎工作,因为texfile中没有换行符(spark csv reader不支持此功能),但是我有一种预感,这可能不是处理它的正确方法。 有什么想法或建议吗?

由于文件非常大,性能也是一个问题,因此使用rdd和map似乎会带来高性能成本。

0 个答案:

没有答案