我目前正在解决一个问题,即将包含自我报告的职位(因此混乱,语无伦次和大量正字错误)的数据集与SAS中的官方标题的标准化列表进行匹配。
以简洁形式,我可以说我有以下标准化标题列表:
machine engineer
machine assistant
machine mechanic
machine operator
自我报道标题的快照,其中包含一些常见问题:
Machine engineer
machine engineer at ABC machine company
mechanic for agricultural machines
mchaine assistant
machine operator/conductor
这些自我报告的标题通常包含公司名称和不感兴趣的部门以及拼写错误。首先我考虑的是模糊匹配,但是对于COMPGED函数,编辑距离对于例如包含公司的条目来说会非常高。该问题本身包含大约1,400个标准化的职称和超过170,000个不同的自我报告的标题来自总共大约100万个条目。显然,期望所有头衔都可以匹配会过于乐观,但任何接近的方法都会有很大的帮助。我的目标基本上是这样的:
ID self_reported standardised
1 Machine engineer machine engineer
2 machine engineer at ABC machine company machine engineer
3 mechanic for agricultural machines machine mechanic
4 mchaine assistant machine assistant
5 machine operator/conductor machine operator
是否有任何方法可以解决此匹配问题中可能出现的众多问题?
谢谢!