抱歉,如果标题错误或令人困惑。
我正在处理两个源文件(认为csv文件转换为excel或加载到单独的oracle表中)。从业务角度来看,这两个文件中的数据是相关联的。
文件1包含一组行和列。例如:
card_type, amount
VISA, 100
MASTERCARD, 300
DISCOVER, 200
AMEX, 150
DEBIT, 400
文件2包含simliar数据,但是以未知方式聚合:
deposit_id, deposit_date, amount
1, 03/01/2015, 400
2, 03/01/2015, 350
3, 03/01/2015, 400
现在显然我过分简化了很多。
我正在寻找的方法是确定文件1中的行与文件2中的行的关系。
在这种情况下,可能的结果是:
file1 (visa + mastercard = 400) = file2 deposit_id 1 (400)
file1 (debit = 400) = file2 deposit_id 1 (400)
file1 (visa = mastercard = 400) = file2 deposit_id 3 (400)
file1 (debit = 400) = file2 deposit_id 3 (400)
file1 (discover + amex = 350) = file2 deposit_id 2 (350)
......等等......
有时候可以排除行(根本不使用)。也许有行使用2次。也许有1个关联,也许有2个或3个。谁知道!遗憾的是,数据文件没有很好地定义(在这里讨论旧的大型机系统)。
显然,我可以尝试自己手动弄清楚,但我最终尝试了大量的死胡同组合,只浪费时间。拥有一个能够接受输入并试图了解它们可能相关的系统是一件好事。我意识到每个可能的解决方案都需要在事后进行人工分析,以确保它有意义并适用于所有数据集。我很感激任何建议,如果我正在寻找的东西是否可能,或者用正确的术语来描述我的问题。
如果可能的解决方案是查询形式,甚至是提供功能的现有应用程序/程序/网站,我很好。
谢谢!