标签: python database parallel-processing fuzzy
我需要从给出的约100个Excel / CSV文件中准备一个主数据表。我怎样才能有效地做到这一点?我已经尝试在模糊匹配和列名和列值的精确匹配百分比的基础上找到候选键。有没有更有效的方法呢? 使用/生成的主键也可以是基于模糊匹配百分比的列的组合。我该如何继续这个?