聚类数据

时间:2012-05-16 14:38:04

标签: java machine-learning nlp cluster-analysis

我的数据库中存有数百万个名称,这些名称只是客户名称,
我必须在内部集中在语音上相似的名称,
我正在使用的一种方法是将每个名称与基于声音ex,meta-phone,initials..etc的数据库中提取的一些选择性相似的名称相匹配。 但它很慢,
现在我正在考虑为每个名称生成唯一的ID并聚类相似的唯一ID, 但我无法生成独特的ID。 名字是印度名字,用英文字母书写 是否存在用于聚类相似名称的算法。 请帮忙

1 个答案:

答案 0 :(得分:0)

这里的关键问题是“语音相似”。您需要知道如何从音素生成唯一ID。

您没有说明这些名称存储在哪种语言和字母中。

这个问题可能与语音合成算法有更多共同之处:

http://social.msdn.microsoft.com/Forums/da/netfxbcl/thread/b6b88747-9616-462e-9cf6-78c19da32f38

或者这个用于Java:

http://voce.sourceforge.net/