跟踪大型数据集上的唯一标识符

时间:2013-07-19 10:26:46

标签: java performance memory persistence object-persistence

我有一个独立的JAVA应用程序,它对从输入文件中读取的大量元素进行操作,每个元素都与一个标识符相关联。对于每个元素,我会做以下(当然还有其他):

  • 检查元素是否尚未使用它进行处理 标识符。
  • 使用某种统计方法将元素映射到网格, 网格的每个单元格负责跟踪唯一元素 分配给它的,以及为每个元素计算的一些属性。

元素的数量可能非常大(数百万),以及网格本身。只要为其分配了一个元素,就会立即创建每个单元格,以避免存储空单元格。

问题是:有大量数据,自然会出现内存问题。在避免内存问题的同时处理大量数据的最佳策略是什么?

我有几点想法,但我想知道是否有人遇到过这类问题,如果有,请分享一下经验:

  • 嵌入式轻量级SQL数据库
  • 缓存解决方案,例如Ehcache或apache jcs
  • NoSQL键值存储,例如cassandra

想法?

0 个答案:

没有答案