适用于大量数据的存储方法

时间:2012-08-28 20:04:39

标签: mapreduce rdbms bigdata

您为非常大量的数据推荐什么样的存储空间? (每天≈50百万条记录)。对于像Hadoop或RDBMS这样的系统来说,这种情况是否仍然适用于此目的?

1 个答案:

答案 0 :(得分:1)

根据您描述的数据量,您可能确实会进入大数据领域。根据您提供的详细信息量,我建议将原始数据加载到Hadoop集群,运行map / reduce作业以解析它并加载到基于日期的目录中。然后,您可以定义按日期(每日?每周?)划分的外部Hive表,映射到map / reduce作业的结果。

下一步将取决于报告的复杂性和所需的响应时间。如果您可以在SQL中轻松表达它们,则可以在Hive表上运行查询。如果它们更精细,您可能必须编写自定义map / reduce作业。许多人建议使用Pig,但我个人对直接Java更加友好。

如果您不关心报告的响应时间,可以按需运行它们。如果你关心,但是等待结果,比如几十秒或几分钟,你可以将报告结果存储在Hive中。如果您希望报告快速显示在基于Web或移动的UI中,您可能希望将报告数据存储在关系数据库中。