Question

我有一个包含数百万条记录的数据库：

[("Something", "10/08/2017", "something else", "something more", "etc"),
("Something", "16/08/2017", "something else", "something more", "etc"),
("Something", "14/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc"),
("Something", "15/07/2017", "something else", "something more", "etc"),
("Something", "14/08/2017", "something else", "something more", "etc")]

那个DD / MM / YYYY我需要它按第二个值反转排序。

第一次尝试：
我尝试了这个，但它只在白天而不是按月分类。

def sort_by(my_list, index):
    my_list.sort(key=lambda x: x[index], reverse=True)
    return my_list

结果的图片（忽略我的GUI中的颜色）：https://image.prntscr.com/image/ZeIgzxNaQ2OD4VX0Yztnhw.png
正如你所看到的那样，它只能在白天进行排序，而不是按月进行排序，因此每次变化时它都会从一个月跳到另一个月。这太乱了。

第二次尝试：

def sort_by_date(my_list, index):
    for record, data in enumerate(my_list):
        split = data[index].split("/")
        altered_record = my_list[record]
        altered_record[index] = split[2]+"-"+split[1]+"-"+split[0]
    my_list.sort(key=lambda x: x[index], reverse=True)
    return my_list

到那时我意识到它不会起作用，因为元组不允许项目分配，所以我必须将整个数据转换为列表而不是元组列表。即使我这样做，我怀疑它是否有效并且需要花费大量时间来完成这项工作。

所以我的问题是：
你如何按DD / MM / YYYY对元组列表进行排序？

根据来自@ juanpa.arrivillaga的评论，所需的输出是按日期排序的反向排序列表：

31/12/2017
30/12/2017
29/12/2017
28/12/2017
(And the next days of that month)
30/11/2017
29/11/2017
28/11/2017
27/11/2017
(And so go on)

修改：如果可能，我希望将日期保留为字符串，而不是更改日期类型。

Answer 1

您可以使用Python的datetime模块：

from pprint import pprint
from datetime import datetime

database = [("Something", "10/08/2017", "something else", "something more", "etc"),
            ("Something", "16/08/2017", "something else", "something more", "etc"),
            ("Something", "14/07/2017", "something else", "something more", "etc"),
            ("Something", "14/08/2017", "something else", "something more", "etc"),
            ("Something", "15/07/2017", "something else", "something more", "etc"),
            ("Something", "14/08/2017", "something else", "something more", "etc")]

pprint(sorted(database, key=lambda x: datetime.strptime(x[1], "%d/%m/%Y"), reverse=True))

哪个有输出：

[('Something', '16/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '14/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '14/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '10/08/2017', 'something else', 'something more', 'etc'),
 ('Something', '15/07/2017', 'something else', 'something more', 'etc'),
 ('Something', '14/07/2017', 'something else', 'something more', 'etc')]

Answer 2

假设您在内存中拥有1M记录的整个数据库，最佳解决方案是：

sorted(my_list, key=lambda rec: int(rec[1][-4:] + rec[1][3:5] + rec[1][:2]), reverse=True)

它非常接近您的第二个解决方案，除了您根本不修改列表，而只是按需提取每个记录的密钥。并且密钥将具有原始20170811字符串的整数类型的'11/08/2017'形式。

并且它不会创建日期时间对象，因为当您仅需要进行排序时，解析可能过于昂贵。

它比datetime对象和字符串更快。因为整数比较是最快的。

它在排序过程中消耗的内存最少，因为整数是存储密钥的最紧凑方式（相对于字符串和日期时间）。

通过存储自某个基准日期以来的天数（比较：20170811（20'170'811）与736551，它可以更加优化（没有真正的好处，但有趣）自1970年1月1日起的（736'551）天或自1970年1月1日起的17389（17'389）。与日期时间解析相比，计算成本并没有那么大。

sorted(my_list, key=lambda rec: int(rec[1][-4:])*32*12 + int(rec[1][3:5])*32 + int(rec[1][:2]), reverse=True)

在这里，我们假设每个月总是32天，每年总是32 * 12 = 384天。因为我们不关心实际的天数，而只关心它们在数值轴上的相对位置。这很容易涵盖28-29-30-31天的病例。

PS：但是，如果你真的有一个包含1M记录的数据库，我会建议你用适当的SQL在数据库服务器中对它进行排序 - 更快，更优化。但这是另一个重要的话题，取决于数据库的组织方式。

使用此日期格式反向排序列表的最佳方法是什么？

2 个答案: