缺失值如何在记录链接类中工作?

时间:2019-06-19 15:49:06

标签: python pandas missing-data record-linkage

当我使用qgram和levenshtein的方法使用缺少值参数时,它可以工作,但是不适用于lcs和jarowinkler。任何想法为什么会这样?

查看代码

compare_cl_1.string('N_name','N_name', label='nombre levenshtein', method='levenshtein', missing_value=0.23) # 5667 valores unicos, 6733 numero total
compare_cl_1.string('N_name', 'N_name', method='jarowinkler', missing_value=0.56, label='nombre jarowinkler')
compare_cl_1.string('N_name', 'N_name', method='qgram', missing_value=0.13, label='nombre qgram')
compare_cl_1.string('N_name','N_name', method='lcs', missing_value=0.23, label='nombre lcs')
compare_cl_1.exact('N_address', 'N_address', label='direccion exacta') # 15680 valores unicos, 538745 numero total
compare_cl_1.string('N_address','N_address', missing_value=0.3, label='direccion levenshtein') # 14756 valores unicos, 476837 total parece que hay muchisimas repeticiones
compare_cl_1.string('N_address','N_address', method='jarowinkler', missing_value=0.61, label='direccion jarowinkler')
compare_cl_1.string('N_address', 'N_address', method='qgram',missing_value=0.2, label='direccion qgram')
compare_cl_1.string('N_address', 'N_address', method='lcs', missing_value=0.32, label='direccion lcs')
candidate_links = indexer.index(dfg, dfm)[:10000]
features = compare_cl.compute(candidate_links, dfg, dfm)

这就是我要得到的

levenshtein和qgram列的输出我得到了设置值,但其余部分得到了0.0。

0 个答案:

没有答案