我通常有一个共同的任务,我需要在由数千个文件(20,000到50,000)组成的数据集上运行脚本。这个列表通常是动态的,所以我一直试图找到一个解决方案,我的Python代码将生成一个我需要的所有文件的列表。
我目前的解决方案是:
os.system("ls " + dir + " | grep -i "\.extension" > " + dir + "temp.text")
with open(dir + "temp.txt", "rb") as fi:
#parse
问题是,当存在许多文件且存在许多文件类型时,这可能会非常慢。有更智能的方法来解决这个问题吗?
答案 0 :(得分:0)
我不确定你为什么不在这里使用os
。
import os
filelist = os.listdir(dir)
for file in filelist:
with open(os.path.join(dir, file), 'rb') as fi:
#parse