Question

我的数据集超过10000（这将来会更多）记录如下：

[[name=>'name1',url=>'url1', visit=>120],
[name=>'name2',url=>'url2'], visit=>250,
..........
]

key组合name，url可能有重复的值。在这种情况下，我需要得到每个记录的总和都有重复的name，url。

最后，我希望将此值插入数据库。当我这样做时，我有两种方法可以做到这一点：

执行此操作的最佳解决方案是什么？还是更好方式执行此操作？

我知道第一种方法中的大数据集存在内存问题。在第二种方法中有很多db命中，如果我按照第二种方式我需要知道它的缺点。

任何帮助或见解都将不胜感激。

Answer 1

我自己做了一些像这样的大数据库更新，花了很多时间尝试不同的解决方案。

而不是：

我会尝试这个