我创建了一个文件名列表,格式为xxxx_2019-05-20.txt,其中包含目录中的所有文件。我使用os.listdir('path')建立列表。
我想创建第二个列表,仅包含2019年1月1日之后的文件。
有没有一种方法可以不遍历每个文件名并从文件名中提取日期并将其与filterdate(2019-01-01)进行比较?
我可以做上面的事情,唯一的问题是我可以查看非常大的目录,所以只是想知道是否有更聪明的方法来做到这一点。感谢您的帮助。
答案 0 :(得分:2)
我认为时间不会成为问题。我使用一百万个假文件名构建了一个工作流,对我来说,它的工作时间约为2.5秒(我的计算机平均水平)。此外,我使用正则表达式提取年份,因此,如果您需要一个更简单的解决方案,它将更快。
import timeit
s="""from random import choice
import re
names = ('WAKA', 'waka', 'waka-waka', 'wattafak')
dates = ('2018-12-01', '2018-01-01', '2019-01-01', '2019-02-03')
filenames = (
choice(names) + '_' + choice(dates) + '.txt'
for _ in range(1000000)
)
def check_filenames_regex(filenames):
REGEX = re.compile(r'.*_(?P<year>\d{4})-\d\d-\d\d\..+')
result = []
for f in filenames:
r = REGEX.match(f)
if r:
year = r.group('year')
if int(year) >= 2019:
result.append(f)
return result
"""
timeit.timeit('check_filenames_regex(filenames)', setup=s)
返回:
2.742631300352514
如果您的文件夹中的文件少于几千万个,那么简单的蛮力解决方案就不会成为问题。