我正在处理涉及同一人的不同数据集。但是,由于这两个数据集都没有任何独特的人YET概念(尽管是由同一个组织生成的),因此排列这两个数据集的人并不是很棒。
目前,我们正在使用1990年的疾病控制和预防中心工具LinkedPlus。这个软件看起来很酷 - 它会在两个不同的数据集中找到名称字段的语音表示,并且根据语音差异(名称听起来有多不同),它将以确定性因子加入记录。
到目前为止,所有数据集的生成都是自动化的(在我介入之前,他们曾经手动,手动完成!)但是,我没有看到任何类型的LinkedPlus API,或者任何方式自动化这个。基本上,我喜欢某种phonetic analysis api,然后是生日之间的差异(但是基于人类键控错误的概率,所以相同的日/月/年,但有一位数差异“关闭”或者转置错误也会很接近。)
除了这个古老的CDC工具之外,你们知道是否还有这样的东西,尤其是医疗数据?老实说,如果这个工具有一个API,它可能是完美的。
我总是可以编写一个Windows脚本来点击屏幕上的位置来自动化LinkedPlus ...