将多个文件加载到数据帧中

时间:2016-06-16 18:17:33

标签: python dataframe io pyspark pyspark-sql

是否可以将多个文件作为一个数据框加载?通常,如果我要加载一个文件,我会调用例如:

file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)

但我想加载文件夹/a/b/c/folder/*.csv下的所有文件。

1 个答案:

答案 0 :(得分:0)

我认为sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder)有效。以前我得到的错误是因为我准备好压缩文件,并且与内存相比它们是超大的