读取多个CSV文件的更好方法

时间:2019-05-15 09:36:16

标签: pyspark

我有200个基于日期的csv文件。其中,我只需要50个文件中的数据。我应该阅读所有200个文件,然后根据日期对其进行过滤,还是只阅读这50个需要的文件?哪个是更好的选择性能明智的选择?

1 个答案:

答案 0 :(得分:0)

DataFrameReader的{​​{3}}方法接受创建数据帧的路径列表。 如果您确切知道所需的路径,只需生成一个列表并使用它即可。