应用错误收集

我试图从大量交易数据中找出信息性数据模式。

通常我的数据是具有明确定义列的记录集（如发件人，收件人，金额，货币地址等 - 我有大约40-50个不同的列），数据量将是数百万（可能是百万分之一）的记录我的目标是从这样生成信息性交易模式 - 谁购买特定项目的最多，最高交易量的交易接收者，费用模式，谁从另一个发件人获得更多交易等。

早些时候我计划在关系数据库（Oracle / MySQL）中加载数据并编写复杂的SQL来获取这些信息，但是在我的概念验证期间查看卷，它似乎没有太大的可扩展性。

我正在尝试使用Hadoop等获取有关分布式数据处理的更多信息。我刚刚开始阅读Hadoop，直到我最初的理解Hadoop非常适合于未经检查的数据处理，并且可能对关系数据处理没有多大用处。

有关开源技术的任何指示/建议，我可以快速试验。