Question

我下载不同的链接，我不控制下载哪些链接，所以我希望我的程序能够判断之前是否已经下载了该链接，如果有，则跳过链接并继续循环它现在在。

void PopulateStudentAssessmentViewModel(SuperMapModel smM) {
    smM.saVM = new StudentAssessmentViewModel();

    smM.saVM.x = ..
    smM.saVM..y = ..
    smM.saVM..z = ..
}

在这个循环中，我使用一个数组来处理URL重复，但正如您所知，一旦重新启动程序，一切都将被删除。

Answer 1

将其保存到csv。当我需要能够将信息从一个代码执行保存到另一个代码时，这就是我所做的。然后你可以在程序再次执行时加载csv。

import csv

websites = ["www.example.com/1","www.example.com/2"]

with open('history.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(websites)

with open('history.csv', newline='') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

有关使用csv的详细信息，请参阅https://docs.python.org/3/library/csv.html。

Answer 2

如果性能是一个问题，我会散列规范化的URL并使用bisect模块将哈希值保存到数据库或列表中以保持其有序。比较哈希比比较字符串更快，空间效率更高。

将字符串存储到表中以便以后搜索和比较的最简单方法是什么？

2 个答案: