我想在Apache Spark中读取具有以下结构的文件。
628344092\t20070220\t200702\t2007\t2007.1370
分隔符是\ t。如何在使用spark.read.csv()?
时实现这一点csv太大而无法使用pandas,因为读取此文件需要很长时间。有没有什么方法与
类似pandas.read_csv(file, sep = '\t')
非常感谢!
答案 0 :(得分:21)
使用spark.read.option("delimiter", "\t").csv(file)
或sep
代替delimiter
。
如果字面上是\t
,而不是标签特殊字符,请使用双\
:spark.read.option("delimiter", "\\t").csv(file)