应用错误收集

聚类数据

时间：2012-05-16 14:38:04

标签： java machine-learning nlp cluster-analysis

我的数据库中存有数百万个名称，这些名称只是客户名称，
我必须在内部集中在语音上相似的名称，
我正在使用的一种方法是将每个名称与基于声音ex，meta-phone，initials..etc的数据库中提取的一些选择性相似的名称相匹配。但它很慢，
现在我正在考虑为每个名称生成唯一的ID并聚类相似的唯一ID，但我无法生成独特的ID。名字是印度名字，用英文字母书写是否存在用于聚类相似名称的算法。请帮忙

1 个答案:

答案 0 :(得分：0)

这里的关键问题是“语音相似”。您需要知道如何从音素生成唯一ID。

您没有说明这些名称存储在哪种语言和字母中。

这个问题可能与语音合成算法有更多共同之处：

http://social.msdn.microsoft.com/Forums/da/netfxbcl/thread/b6b88747-9616-462e-9cf6-78c19da32f38

或者这个用于Java：

http://voce.sourceforge.net/