Question

我想从位于同一目录中的许多小文件创建一个DataFrame。我打算从pyspark.sql中使用read.csv。我已经了解到在RDD世界中，textFile函数用于读取少量大文件，而wholeTextFiles函数用于读取大量小文件（例如，请参阅this thread ）。 read.csv是否会使用textFile或wholeTextFiles？

Answer 1

是的，可能，只提供路径，直到父目录为

df = spark.read.csv('path until the parent directory where the files are located')

您应该将所有文件读入一个数据框。 如果文件的csv行数不同，则列数是文件中的列数，作为行中最大字段数。

Spark：使用read.csv读取许多文件

1 个答案: