大量交易数据信息模式生成

时间:2012-10-25 00:08:26

标签: hadoop distributed-computing large-data-volumes

我试图从大量交易数据中找出信息性数据模式。

通常我的数据是具有明确定义列的记录集(如发件人,收件人,金额,货币地址等 - 我有大约40-50个不同的列),数据量将是数百万(可能是百万分之一)的记录我的目标是从这样生成信息性交易模式 - 谁购买特定项目的最多,最高交易量的交易接收者,费用模式,谁从另一个发件人获得更多交易等。

早些时候我计划在关系数据库(Oracle / MySQL)中加载数据并编写复杂的SQL来获取这些信息,但是在我的概念验证期间查看卷,它似乎没有太大的可扩展性。

我正在尝试使用Hadoop等获取有关分布式数据处理的更多信息。我刚刚开始阅读Hadoop,直到我最初的理解Hadoop非常适合于未经检查的数据处理,并且可能对关系数据处理没有多大用处。

有关开源技术的任何指示/建议,我可以快速试验。

1 个答案:

答案 0 :(得分:0)

Hadoop可用于结构化/非结构化数据处理。此外,它不是维护关系的数据库,索引就像传统的RDBMS一样。

数百万行HBaseCassandra与/ Hive结合可用于批量查询。 Hadoop中的批量查询已经存在了一段时间并且已经成熟。

可以使用互动查询DrillImapala。请注意,Drill开发刚刚开始并处于孵化阶段。虽然,Imalala刚刚由Cloudera宣布。对于实时引擎,这是some有趣的info

请注意,还有许多其他开源框架可能符合要求,但这里只提到其中的几个。根据详细的需求分析和不同框架的优缺点,必须选择适当的框架。