Spark:使用read.csv读取许多文件

时间:2018-03-21 18:11:07

标签: apache-spark pyspark apache-spark-sql spark-dataframe

我想从位于同一目录中的许多小文件创建一个DataFrame。我打算从pyspark.sql中使用read.csv。我已经了解到在RDD世界中,textFile函数用于读取少量大文件,而wholeTextFiles函数用于读取大量小文件(例如,请参阅this thread )。 read.csv是否会使用textFilewholeTextFiles

1 个答案:

答案 0 :(得分:1)

是的,可能只提供路径,直到父目录

df = spark.read.csv('path until the parent directory where the files are located')

您应该将所有文件读入一个数据框如果文件的csv行数不同,则列数是文件中的列数,作为行中最大字段数