应用错误收集

首先，我是一名没有数据科学背景的程序员，所以我对统计学的工作知识非常有限。

我正在创建一个实体匹配工具来匹配内部数据集中的记录。我想使用这些文件中描述的概率匹配技术*。除了使用期望最大化（EM）推导协议/不一致权重之外，我对该技术如何工作以及如何应用它有很好的理解。

具体来说，我不清楚如何将记录对编码为

所需的double[][]格式

这是一个具体的例子：匹配公司记录。

公司有两个字段：name (string)和country (enum)，我想使用EM生成m和u概率权重。如何为每个字段创建double[][]数据集以提供给EM？

在name的情况下，它是一个字符串，所以会有一个近似的协议/不同意，使用一些字符串相似性方法（编辑距离，语音索引等，这里的细节不相关）

如果是country，我的数据会被标准化，因此协议只会在完全匹配时发生。但是某些国家的代表人数过多且不足。因此，代表性不足的国家的记录权重应该高于代表性过高的国家的记录。

*描述使用EM的概率匹配技术的文件