我在Postgres数据库中有一个大型事件数据集,这个数据集太大而无法在内存中进行分析。因此,我想将日期时间量化为常规间隔,并在返回结果之前按数据库中的操作执行分组。我以为我会使用SqlSoup迭代相应表中的记录并进行必要的转换。不幸的是,我无法弄清楚如何以这样的方式执行迭代,即我不会立即将对每条记录的引用加载到内存中。是否有一些方法可以一次获取一个记录引用以访问数据并根据需要更新每个记录?
任何建议都会非常感激!
克里斯
答案 0 :(得分:1)
在与一些人交谈之后,很明显更好的答案是使用Pig在本地处理和聚合我的数据。在规模上,我正在操作它并不清楚Hadoop是适合的工具。我与之交谈过的一个人认为,猪的操作规模比数据库操作要快几个数量级,大约是10 ^ 7条记录。