我试图匿名化大约600k记录的大型数据集(删除敏感信息,如电子邮件等),以便它可用于某些性能测试。
我正在使用Scala(Casbah)和Mongo。实际的脚本非常简单明了。当我运行脚本时,整个过程开始非常快 - 每2-3秒解析1000条记录,但它会大大减慢并且开始非常缓慢地爬行。
我知道这是非常模糊的,没有太多的细节,但任何想法为什么会发生这种情况,以及任何关于如何加快这一点的提示?
答案 0 :(得分:1)
原来这是驱动程序的问题,而不是Mongo的问题。当我尝试使用mongo外壳进行相同的插入时,它是通过而不会出汗。
<强>更新强>
所以,我尝试了两种方法。插入现有集合并将结果转储到新集合中。第一种方法对我来说更快。当然,人们不应该假设这总是正确的,并且必须在选择第一种方法之前进行基准测试。在这两种情况下,Mongo都非常快(意思是 - 完成这项工作并不需要花费数小时)。我用来连接Mongo的Java接口出现问题,这对我来说更像是一个愚蠢的错误。