我在两个交易系统之间审核一些财务数据。这两个数据集由事务列表组成。每个都有,
数据不完善; 10-20%的数据不能很好地对齐。
我使用Pandas拼凑了解决问题的方法:What's a more efficient way to merge rows from DataFrames row-by-row with conditions?。
一个简单的pandas.merge()
过于贪婪并产生许多错误的匹配。在数据集中的几个标准上有一个很好的匹配。
使用Pandas有哪些替代方案? 当我研究这个问题时,我发现一些熊猫的答案提示操作会让我担心丢失的数据或重复。
将其置于更好的Stackoverflow问题的形式:有哪些流行的算法或数据结构可用于匹配两个独立系统之间的活动?