自动检查数字集关联

时间:2015-06-16 16:53:07

标签: sql dataset analysis discrete-mathematics set-theory

抱歉,如果标题错误或令人困惑。

我正在处理两个源文件(认为csv文件转换为excel或加载到单独的oracle表中)。从业务角度来看,这两个文件中的数据是相关联的。

文件1包含一组行和列。例如:

card_type, amount
VISA, 100
MASTERCARD, 300
DISCOVER, 200
AMEX, 150
DEBIT, 400

文件2包含simliar数据,但是以未知方式聚合:

deposit_id, deposit_date, amount
1, 03/01/2015, 400
2, 03/01/2015, 350
3, 03/01/2015, 400

现在显然我过分简化了很多。

我正在寻找的方法是确定文件1中的行与文件2中的行的关系。

在这种情况下,可能的结果是:

file1 (visa + mastercard = 400) = file2 deposit_id 1 (400)
file1 (debit = 400) = file2 deposit_id 1 (400)
file1 (visa = mastercard = 400) = file2 deposit_id 3 (400)
file1 (debit = 400) = file2 deposit_id 3 (400)
file1 (discover + amex = 350) = file2 deposit_id 2 (350)

......等等......

有时候可以排除行(根本不使用)。也许有行使用2次。也许有1个关联,也许有2个或3个。谁知道!遗憾的是,数据文件没有很好地定义(在这里讨论旧的大型机系统)。

显然,我可以尝试自己手动弄清楚,但我最终尝试了大量的死胡同组合,只浪费时间。拥有一个能够接受输入并试图了解它们可能相关的系统是一件好事。我意识到每个可能的解决方案都需要在事后进行人工分析,以确保它有意义并适用于所有数据集。

我很感激任何建议,如果我正在寻找的东西是否可能,或者用正确的术语来描述我的问题。

如果可能的解决方案是查询形式,甚至是提供功能的现有应用程序/程序/网站,我很好。

谢谢!

0 个答案:

没有答案