我想从位于同一目录中的许多小文件创建一个DataFrame。我打算从pyspark.sql中使用read.csv
。我已经了解到在RDD世界中,textFile
函数用于读取少量大文件,而wholeTextFiles
函数用于读取大量小文件(例如,请参阅this thread )。 read.csv
是否会使用textFile
或wholeTextFiles
?
答案 0 :(得分:1)
是的,可能,只提供路径,直到父目录为
df = spark.read.csv('path until the parent directory where the files are located')
您应该将所有文件读入一个数据框。 如果文件的csv行数不同,则列数是文件中的列数,作为行中最大字段数。