应用错误收集

比较两个大文件以协调金融交易

时间：2013-08-06 07:50:16

标签： file hadoop mapreduce compare

我正在尝试编写一个程序来比较两个大文件：两个文件应该每天比较金融交易。文件可以是xml或csv格式。每个文件有30到400万行，有50列。根据由一组关键字段定义的区域进行协调。

输出必须标识具有相同密钥但数据不同的行

我使用SQL比较（表中的每个文件），它可以工作，但它需要一个数据库，如Oracle和强大的服务器

有一个使用MapReduce概念或基础nosql

的解决方案

1 个答案:

答案 0 :(得分：0)

我认为在任何rdbms（oracle，sql server，mysql，postgre）中每天比较2个3-4m索引表并不是一个问题，也不会花太长时间。

您也可以使用基于MapReduce的数据处理系统（如Hadoop）来执行相同的操作。有一些Hadoop即服务平台，包括我们的（Xplenty）可以帮助您快速完成并按使用付费定价，这样您就可以降低执行此类处理的成本。我不建议使用基于MapReduce的解决方案来简单比较几百万条记录，但如果比较复杂，那么您可以尝试一下。