我有一系列字符串,我试图解析为日期。它们的形式(001是朱利安日)
code_36763.letters_81m_2013_001_0000.dat
只有那些不构成日期的数字才会改变,所以在通配符中这将是
code_?????.letters_??m_%Y_%j_%H%M.dat
我首先想到的是datetime.datetime.strptime
,但我收到错误消息ValueError: time data does not match format
,这意味着strptime
无法理解通配符。然后我的第二个想法是使用dateutil.parser
,但是当我做
from dateutil.parser import parse
f='code_36763.letters_81m_2013_001_0000.dat'
parse(f, fuzzy=True)
我收到错误
TypeError: 'NoneType' object is not iterable
这可能意味着其他数字正在阻碍。
有没有办法解决这个问题,而无需手动削减其他数字?我问这个是因为我必须写的代码应该足够通用,其他数字可以在字符串的不同位置。
答案 0 :(得分:1)
这样的事情可以通过使用re.sub
将文件名重新格式化为strptime
可以解析的内容来实现。
>>> import re
>>> import datetime
>>> filenames = ["code_36763.letters_81m_2013_001_0000.dat", "code_36763.letters_81m_2013_240_1700.dat"]
>>> for n in filenames:
... parsed = re.sub(r"code_\d+.letters_\d{2}m_(\d{4})_(\d{3})_(\d{2})(\d{2}).dat", r"\1-\2-\4:\3", n)
... print datetime.datetime.strptime(parsed, "%Y-%j-%H:%M")
...
2013-01-01 00:00:00
2013-08-28 00:17:00
答案 1 :(得分:0)
我会使用正则表达式:
>>> import re
>>> re.match(
r"code_\d{5}.letters_\d{2}m_(?P<year>\d{4})_(?P<day>\d{3})_(?P<hour>\d{2})(?P<minute>\d{2}).dat",
"code_36763.letters_81m_2013_001_0000.dat"
).groupdict()
{'year': '2013', 'day': '001', 'minute': '00', 'hour': '00'}
然后,您可以将数字转换为整数并相应地传递它们。参见例如Convert julian day into date获得该步骤的帮助。
答案 2 :(得分:0)
您拥有的字符串似乎是相当固定的格式。如果是这种情况,那么以下方法可能只需将开头简单地切掉,以便它适合strptime
:
import datetime
filename = "code_36763.letters_81m_2013_001_0000.dat"
print datetime.datetime.strptime(filename[-19:-4], "m_%Y_%j_%H%M")
给你输出:
2013-01-01 00:00:00