我有一个数据库,其中包含乐队和其他与音乐相关的艺术家的名字。现在我想检查一个包含这个数据库的艺术家名字的字符串,找到相似或相同的艺术家,以避免不同类型的拼写。
我发现php函数'similar_text',我确信,在循环中构建脚本来进行这种比较是没有问题的。
进行这种比较的最佳和最快方法是什么?
答案 0 :(得分:1)
取决于数据的大小。如果它是微不足道的[几万] - 然后运行夜间批量工作,将:
在此阶段,您必须决定是否要为每次重命名进行自动合并或手动批准。从长远来看,你可以有一个正确拼写的助手表,并发现到目前为止拼错拼写。这些案件可以在下次遇到时自动处理。
如果soundex不够好,您可以尝试使用php的similar_text,levenshtein函数进行实验,并将新添加数据中的名称与您之前已经评论过的艺术家的“已批准”名称进行比较。