我有一些数据(下面的示例),每次丢失数据时我都可以告诉他们是否存在拼写错误,别名或缩写。
例如,第1,2和5行实际上只需要一行。与6和7相同。现在我将这些行过滤掉,并手动修复和合并它们。寻找有关熊猫用户如何处理这些东西的建议。有什么方法可以自动化或半自动化该过程?
year 2001 2002 2003
name
Agadlent NaN 6.0 NaN
Agadlant 1.0 Nan NaN
Amd 8.0 7.0 8.0
Akki 13.0 15.0 16.0
Agadllent NaN NaN 3.0
Anant NaN 22.0 4.5
Anand 15.0 NaN NaN
还希望创建一个“同义词”字典,该字典收集所有变体供以后使用。因此,只要检测到变体,就会将其映射为“推荐”名称,然后使用该名称。