我正在使用Python。我有很多长数据文本。每个文本都可以视为字符串。在每个字符串中,我需要将字符串分成存在日期的列表元素。
eg. long string1 (date format: mm.dd.yyyy):
05.12.2016 15:58:31 jsfkgskdlfsgfdslkcbj 05.13.2016 15:58:31 sdfasjdcakscsdv
01.14.2016fsdkjgfdhkvjxdbvxd
eg. long string2 (date format: dd/mm/yyyy):
05/12/2016 15:58:31 jsfkgskdlfsgfdslkcbj 05.1.2016 15:58:31 sdfasjdcakscsdv
21/11/2016fsdkjgfdhkvjxdbvxd
第1步:我需要编写一个通用代码,以便可以在同一代码中传递两个字符串。
第二步:该代码的目标是将字符串转换为包含元素的列表 按日期分隔。
例如长字符串1到列表1 [05.12.2016 15:58:31 jsfkgskdlfsgfdslkcbj,05.13.2016 15:58:31 sdfasjdcakscsdv,01.14.2016fsdkjgfdhkvjxdbvxd]
第3步:,然后选择日期最早的元素
以上示例的输出:2016年1月14日fsdkjgfdhkvjxdbvxd
我在执行第2步和第3步时获得了帮助,并且当所有字符串都具有相同的日期格式时,我可以这样做。但是我的挑战是首先读取一个字符串并弄清楚它使用的是哪种日期格式,然后根据日期进行解析和排序
如果有一个日期格式,我有代码。
text = '05/12/2016 15:58:31 jsfkgskdlfsgfdslkcbj 05.1.2016 15:58:31 sdfasjdcakscsdv 21/11/2016fsdkjgfdhkvjxdbvxd'
list1 = list()
for d, t in zip(*[iter(re.split(r'(\d+[\/.]\d+[\/.]\d+ \d+:\d+:\d+)', text)[1:])]*2):
list1.append(d + t)
from datetime import datetime
list_sorted=sorted(list1,key=lambda s: datetime.strptime(s[0:19], "%d.%m.%Y %H:%M:%S") if '.' in s[0:19] else datetime.strptime(s[0:19], "%d/%m/%Y %H:%M:%S"))
complaint = list_sorted[0]
print(complaint)
上面的代码对于单个日期格式的单个字符串非常有效。如何将其概括为首先检测字符串中的日期格式,然后进行相应的解析
答案 0 :(得分:1)
您可以使用dateutil.parser模块中提供的dateutil,该模块可以为您解析日期时间字符串,而不考虑格式
In [17]: from dateutil import parser
In [18]: parser.parse('05/12/2016 15:58:31', fuzzy=True)
Out[18]: datetime.datetime(2016, 5, 12, 15, 58, 31)
In [19]: parser.parse('05.1.2016 15:58:31', fuzzy=True)
Out[19]: datetime.datetime(2016, 5, 1, 15, 58, 31)
In [20]: parser.parse('21/11/2016', fuzzy=True)
Out[20]: datetime.datetime(2016, 11, 21, 0, 0)
或者是另一个收集日期时间对象并根据其对原始列表进行排序的示例
from dateutil import parser
#List of textdate srings
textdate = ['5.13.2001 21:23:54 fgdsgd', '05.12.2001 09:43:32 arfehfks']
#Collect datetime objects
dates = []
for item in textdate:
dates.append(parser.parse(item, fuzzy=True))
#Sort datetime objects and obtained original list on sorting
res = [textdate[i[0]] for i in sorted(enumerate(dates), key=lambda x:x[1])]
print(res)
输出将为
['05.12.2001 09:43:32 arfehfks', '5.13.2001 21:23:54 fgdsgd']