我有一个包含数百万条记录的数据库:
[("Something", "10/08/2017", "something else", "something more", "etc"),
("Something", "16/08/2017", "something else", "something more", "etc"),
("Something", "14/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc"),
("Something", "15/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc")]
那个DD / MM / YYYY我需要它按第二个值反转排序。
第一次尝试:
我尝试了这个,但它只在白天而不是按月分类。
def sort_by(my_list, index):
my_list.sort(key=lambda x: x[index], reverse=True)
return my_list
结果的图片(忽略我的GUI中的颜色):https://image.prntscr.com/image/ZeIgzxNaQ2OD4VX0Yztnhw.png
正如你所看到的那样,它只能在白天进行排序,而不是按月进行排序,因此每次变化时它都会从一个月跳到另一个月。这太乱了。
第二次尝试:
def sort_by_date(my_list, index):
for record, data in enumerate(my_list):
split = data[index].split("/")
altered_record = my_list[record]
altered_record[index] = split[2]+"-"+split[1]+"-"+split[0]
my_list.sort(key=lambda x: x[index], reverse=True)
return my_list
到那时我意识到它不会起作用,因为元组不允许项目分配,所以我必须将整个数据转换为列表而不是元组列表。即使我这样做,我怀疑它是否有效并且需要花费大量时间来完成这项工作。
所以我的问题是:
你如何按DD / MM / YYYY对元组列表进行排序?
根据来自@ juanpa.arrivillaga的评论,所需的输出是按日期排序的反向排序列表:
31/12/2017
30/12/2017
29/12/2017
28/12/2017
(And the next days of that month)
30/11/2017
29/11/2017
28/11/2017
27/11/2017
(And so go on)
修改:如果可能,我希望将日期保留为字符串,而不是更改日期类型。
答案 0 :(得分:6)
您可以使用Python的datetime
模块:
from pprint import pprint
from datetime import datetime
database = [("Something", "10/08/2017", "something else", "something more", "etc"),
("Something", "16/08/2017", "something else", "something more", "etc"),
("Something", "14/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc"),
("Something", "15/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc")]
pprint(sorted(database, key=lambda x: datetime.strptime(x[1], "%d/%m/%Y"), reverse=True))
哪个有输出:
[('Something', '16/08/2017', 'something else', 'something more', 'etc'),
('Something', '14/08/2017', 'something else', 'something more', 'etc'),
('Something', '14/08/2017', 'something else', 'something more', 'etc'),
('Something', '10/08/2017', 'something else', 'something more', 'etc'),
('Something', '15/07/2017', 'something else', 'something more', 'etc'),
('Something', '14/07/2017', 'something else', 'something more', 'etc')]
答案 1 :(得分:1)
假设您在内存中拥有1M记录的整个数据库,最佳解决方案是:
sorted(my_list, key=lambda rec: int(rec[1][-4:] + rec[1][3:5] + rec[1][:2]), reverse=True)
它非常接近您的第二个解决方案,除了您根本不修改列表,而只是按需提取每个记录的密钥。并且密钥将具有原始20170811
字符串的整数类型的'11/08/2017'
形式。
并且它不会创建日期时间对象,因为当您仅需要进行排序时,解析可能过于昂贵。
它比datetime对象和字符串更快。因为整数比较是最快的。
它在排序过程中消耗的内存最少,因为整数是存储密钥的最紧凑方式(相对于字符串和日期时间)。
通过存储自某个基准日期以来的天数(比较:20170811
(20'170'811)与736551
,它可以更加优化(没有真正的好处,但有趣)自1970年1月1日起的(736'551)天或自1970年1月1日起的17389
(17'389)。与日期时间解析相比,计算成本并没有那么大。
sorted(my_list, key=lambda rec: int(rec[1][-4:])*32*12 + int(rec[1][3:5])*32 + int(rec[1][:2]), reverse=True)
在这里,我们假设每个月总是32天,每年总是32 * 12 = 384天。因为我们不关心实际的天数,而只关心它们在数值轴上的相对位置。这很容易涵盖28-29-30-31天的病例。
PS:但是,如果你真的有一个包含1M记录的数据库,我会建议你用适当的SQL在数据库服务器中对它进行排序 - 更快,更优化。但这是另一个重要的话题,取决于数据库的组织方式。