Question

我想在Apache Spark中读取具有以下结构的文件。

628344092\t20070220\t200702\t2007\t2007.1370

分隔符是\ t。如何在使用spark.read.csv（）？

时实现这一点

csv太大而无法使用pandas，因为读取此文件需要很长时间。有没有什么方法与

类似

pandas.read_csv(file, sep = '\t')

非常感谢！

Answer 1

使用spark.read.option("delimiter", "\t").csv(file)或sep代替delimiter。

如果字面上是\t，而不是标签特殊字符，请使用双\：spark.read.option("delimiter", "\\t").csv(file)