自定义分隔符csv阅读器火花

时间:2017-09-21 17:20:24

标签: csv apache-spark pyspark

我想在Apache Spark中读取具有以下结构的文件。

628344092\t20070220\t200702\t2007\t2007.1370

分隔符是\ t。如何在使用spark.read.csv()?

时实现这一点

csv太大而无法使用pandas,因为读取此文件需要很长时间。有没有什么方法与

类似
pandas.read_csv(file, sep = '\t')

非常感谢!

1 个答案:

答案 0 :(得分:21)

使用spark.read.option("delimiter", "\t").csv(file)sep代替delimiter

如果字面上是\t,而不是标签特殊字符,请使用双\spark.read.option("delimiter", "\\t").csv(file)