是否可以将多个文件作为一个数据框加载?通常,如果我要加载一个文件,我会调用例如:
file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)
但我想加载文件夹/a/b/c/folder/*.csv
下的所有文件。
答案 0 :(得分:0)
我认为sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder)
有效。以前我得到的错误是因为我准备好压缩文件,并且与内存相比它们是超大的