我正在尝试比较来自两个来源的数据。
ORIG Kick-Ass: Music From The Motion Picture
ALT Kick-A*s (Music from the Motion Picture)
ALT Kick-Ass: (Music from the Motion Picture)[Explicit]
ALT Kick-Ass: A dedication
ALT 1 ALT 2和ORIG是相同的匹配。 ALT 3是虚拟结果。
我需要验证这些是否匹配,PHP库中是否有可用的方法。 我想用count_chars计算每个单独的字符,然后使用百分比匹配比较ORIG字符串。但是,如果它的标题很短,那就太好了。
您有什么想法可以验证它们是否匹配,
干杯,
Ĵ
答案 0 :(得分:5)
嗯,总是有levenshtein distance,但我不确定这对你有多大帮助。
但可能是worth a shot。
答案 1 :(得分:1)
你可以考虑使用编辑距离
http://en.wikipedia.org/wiki/Levenshtein_distance
php电话:
http://ca2.php.net/levenshtein
它返回将一个字符串转换为另一个字符串时必须进行的更改次数(插入和删除)
HTH
答案 2 :(得分:0)
您可以尝试以下内容:Hamming distance