标签: pyspark
我有200个基于日期的csv文件。其中,我只需要50个文件中的数据。我应该阅读所有200个文件,然后根据日期对其进行过滤,还是只阅读这50个需要的文件?哪个是更好的选择性能明智的选择?
答案 0 :(得分:0)
DataFrameReader的{{3}}方法接受创建数据帧的路径列表。 如果您确切知道所需的路径,只需生成一个列表并使用它即可。
DataFrameReader