每小时从couchdb获取数据,包含数百万个对象

时间:2012-10-09 09:04:25

标签: map amazon-web-services mapreduce couchdb reduce

我在AWS EC2媒体点播实例上设置了couchdb数据库,其中有大约400万个对象,每秒增长约100个对象。

我想在它上面写一些map / reduce查询,但是我的地图作业需要永远完成。 所以我想知道我是否应该将数据复制到其他机器上,并删除主机上的所有数据,保持清洁,我宁愿在复制数据的第二个实例上写我的地图作业;我也在考虑将这些数据转移到s3实例,并在这里保留一周的数据。

我正在思考正确的方向

2 个答案:

答案 0 :(得分:0)

不幸的是,对于这么大的数据库,你只能使用内置的reduce函数:

  • _sum
  • _count
  • _stats

这些功能比javascript功能更快。这是大型数据库唯一可行的选择。

http://wiki.apache.org/couchdb/Built-In_Reduce_Functions

答案 1 :(得分:0)

您可以编写自己的View Server或使用其中一个可用的implementations来测试是否有助于提升效果。