我试图从大量交易数据中找出信息性数据模式。
通常我的数据是具有明确定义列的记录集(如发件人,收件人,金额,货币地址等 - 我有大约40-50个不同的列),数据量将是数百万(可能是百万分之一)的记录我的目标是从这样生成信息性交易模式 - 谁购买特定项目的最多,最高交易量的交易接收者,费用模式,谁从另一个发件人获得更多交易等。
早些时候我计划在关系数据库(Oracle / MySQL)中加载数据并编写复杂的SQL来获取这些信息,但是在我的概念验证期间查看卷,它似乎没有太大的可扩展性。
我正在尝试使用Hadoop等获取有关分布式数据处理的更多信息。我刚刚开始阅读Hadoop,直到我最初的理解Hadoop非常适合于未经检查的数据处理,并且可能对关系数据处理没有多大用处。
有关开源技术的任何指示/建议,我可以快速试验。