应用错误收集

我正在处理涉及同一人的不同数据集。但是，由于这两个数据集都没有任何独特的人YET概念（尽管是由同一个组织生成的），因此排列这两个数据集的人并不是很棒。

目前，我们正在使用1990年的疾病控制和预防中心工具LinkedPlus。这个软件看起来很酷 - 它会在两个不同的数据集中找到名称字段的语音表示，并且根据语音差异（名称听起来有多不同），它将以确定性因子加入记录。

到目前为止，所有数据集的生成都是自动化的（在我介入之前，他们曾经手动，手动完成！）但是，我没有看到任何类型的LinkedPlus API，或者任何方式自动化这个。基本上，我喜欢某种phonetic analysis api，然后是生日之间的差异（但是基于人类键控错误的概率，所以相同的日/月/年，但有一位数差异“关闭”或者转置错误也会很接近。）

除了这个古老的CDC工具之外，你们知道是否还有这样的东西，尤其是医疗数据？老实说，如果这个工具有一个API，它可能是完美的。

我总是可以编写一个Windows脚本来点击屏幕上的位置来自动化LinkedPlus ...

如何按概率排列名称和生日

0 个答案: