首先,我是一名没有数据科学背景的程序员,所以我对统计学的工作知识非常有限。
我正在创建一个实体匹配工具来匹配内部数据集中的记录。我想使用这些文件中描述的概率匹配技术*。除了使用期望最大化(EM)推导协议/不一致权重之外,我对该技术如何工作以及如何应用它有很好的理解。
具体来说,我不清楚如何将记录对编码为
所需的double[][]
格式
我提供的EM实现是Apache Common Math MultivariateNormalMixtureExpectationMaximization。
这是一个具体的例子:匹配公司记录。
公司有两个字段:name (string)
和country (enum)
,我想使用EM生成m和u概率权重。如何为每个字段创建double[][]
数据集以提供给EM?
在name
的情况下,它是一个字符串,所以会有一个近似的协议/不同意,使用一些字符串相似性方法(编辑距离,语音索引等,这里的细节不相关)
如果是country
,我的数据会被标准化,因此协议只会在完全匹配时发生。但是某些国家的代表人数过多且不足。因此,代表性不足的国家的记录权重应该高于代表性过高的国家的记录。
double[]
中的值到底是什么意思/代表什么?double[]
?*描述使用EM的概率匹配技术的文件