什么是算法&数据结构对于对齐(财务)异步系统有用吗?

时间:2017-03-18 23:26:52

标签: python pandas financial

我在两个交易系统之间审核一些财务数据。这两个数据集由事务列表组成。每个都有,

  • 时间戳,
  • 特殊事务ID(不在系统之间共享)
  • 交易值(项目名称,项目值,总计,调整)。

数据不完善; 10-20%的数据不能很好地对齐。

我使用Pandas拼凑了解决问题的方法:What's a more efficient way to merge rows from DataFrames row-by-row with conditions?。 一个简单的pandas.merge()过于贪婪并产生许多错误的匹配。在数据集中的几个标准上有一个很好的匹配。

使用Pandas有哪些替代方案? 当我研究这个问题时,我发现一些熊猫的答案提示操作会让我担心丢失的数据或重复。

将其置于更好的Stackoverflow问题的形式:有哪些流行的算法或数据结构可用于匹配两个独立系统之间的活动?

  • 不会改变原始数据集的东西,
  • 不会从原始数据集中删除项目
  • 使用假设每个条目具有匹配,该匹配在其他数据集中存在或缺失

0 个答案:

没有答案