应用错误收集

读取多个CSV文件的更好方法

时间：2019-05-15 09:36:16

标签： pyspark

我有200个基于日期的csv文件。其中，我只需要50个文件中的数据。我应该阅读所有200个文件，然后根据日期对其进行过滤，还是只阅读这50个需要的文件？哪个是更好的选择性能明智的选择？

1 个答案:

答案 0 :(得分：0)

DataFrameReader的{{3}}方法接受创建数据帧的路径列表。如果您确切知道所需的路径，只需生成一个列表并使用它即可。