比较两个大文件以协调金融交易

时间:2013-08-06 07:50:16

标签: file hadoop mapreduce compare

我正在尝试编写一个程序来比较两个大文件:两个文件应该每天比较金融交易。文件可以是xml或csv格式。 每个文件有30到400万行,有50列。根据由一组关键字段定义的区域进行协调。

输出必须标识具有相同密钥但数据不同的行

我使用SQL比较(表中的每个文件),它可以工作,但它需要一个数据库,如Oracle和强大的服务器

有一个使用MapReduce概念或基础nosql

的解决方案

1 个答案:

答案 0 :(得分:0)

我认为在任何rdbms(oracle,sql server,mysql,postgre)中每天比较2个3-4m索引表并不是一个问题,也不会花太长时间。

您也可以使用基于MapReduce的数据处理系统(如Hadoop)来执行相同的操作。有一些Hadoop即服务平台,包括我们的(Xplenty)可以帮助您快速完成并按使用付费定价,这样您就可以降低执行此类处理的成本。我不建议使用基于MapReduce的解决方案来简单比较几百万条记录,但如果比较复杂,那么您可以尝试一下。