我的数据库中存有数百万个名称,这些名称只是客户名称,
我必须在内部集中在语音上相似的名称,
我正在使用的一种方法是将每个名称与基于声音ex,meta-phone,initials..etc的数据库中提取的一些选择性相似的名称相匹配。
但它很慢,
现在我正在考虑为每个名称生成唯一的ID并聚类相似的唯一ID,
但我无法生成独特的ID。
名字是印度名字,用英文字母书写
是否存在用于聚类相似名称的算法。
请帮忙
答案 0 :(得分:0)
这里的关键问题是“语音相似”。您需要知道如何从音素生成唯一ID。
您没有说明这些名称存储在哪种语言和字母中。
这个问题可能与语音合成算法有更多共同之处:
http://social.msdn.microsoft.com/Forums/da/netfxbcl/thread/b6b88747-9616-462e-9cf6-78c19da32f38
或者这个用于Java: