编码记录样本以获得期望最大化算法

时间:2016-10-26 10:53:50

标签: java algorithm record matching expectation-maximization

首先,我是一名没有数据科学背景的程序员,所以我对统计学的工作知识非常有限。

我正在创建一个实体匹配工具来匹配内部数据集中的记录。我想使用这些文件中描述的概率匹配技术*。除了使用期望最大化(EM)推导协议/不一致权重之外,我对该技术如何工作以及如何应用它有很好的理解。

具体来说,我不清楚如何将记录对编码为

所需的double[][]格式

我提供的EM实现是Apache Common Math MultivariateNormalMixtureExpectationMaximization

这是一个具体的例子:匹配公司记录。

公司有两个字段:name (string)country (enum),我想使用EM生成m和u概率权重。如何为每个字段创建double[][]数据集以提供给EM?

name的情况下,它是一个字符串,所以会有一个近似的协议/不同意,使用一些字符串相似性方法(编辑距离,语音索引等,这里的细节不相关)

如果是country,我的数据会被标准化,因此协议只会在完全匹配时发生。但是某些国家的代表人数过多且不足。因此,代表性不足的国家的记录权重应该高于代表性过高的国家的记录。

  1. 内部double[]中的值到底是什么意思/代表什么?
  2. 应该有多少个条目/列?
  3. 如何将记录编码为double[]
  4. *描述使用EM的概率匹配技术的文件

0 个答案:

没有答案