我必须解析HTML文件,最多可以有500 000个链接。 其中40万将是我所希望的。
我是否应该将满足条件的所有链接放入新列表,然后放入此列表的元素并将其放入数据库中。
或者当我找到满足条件的链接时将其添加到数据库(sqlite)(并提交它)。 那是大量的提交不是问题吗?
我不想在电源等故障的情况下丢失数据。这就是我在插入数据库后想要提交的原因。
如何最好地在数据库中放置大量项目?
答案 0 :(得分:4)
考虑在每1000条记录之后进行一次提交
答案 1 :(得分:1)
如果这些链接分布在多个文件中,那么在处理每个文件后提交怎么办?然后你也可以记住你处理过哪些文件。
对于单个文件,在每次提交后记录文件偏移以进行干净连续。
答案 2 :(得分:0)
你可以尝试使用像mongo这样的noSQL数据库。使用mongo,我添加了500.000个文档,其中每个添加了6个字段,大约15秒(在我的旧笔记本电脑上),并且在不困难的查询上大约0.023秒。