我想在数千个条目列表中计算某些大学课程发生的次数。问题是课程并不总是拼写相同。例如,Computer Engineering
可以拼写为Computers Engineering
。如果2个字符串非常相似,测试它的正确,优雅的方法是什么?
答案 0 :(得分:2)
我会尝试使用stemming 强化字符串。这个想法是 - 给每个字符串赋予其经典形式,并且代表相同单词的两个不同字符串很可能具有相同的经典形式(例如,Computer
和Computers
将具有相同的大炮表格,你会得到一个匹配)。
Porter stemming algorithm通常用于册封。
另一种选择 - 将字符串与彼此之间的距离进行评分,建议的Levenshtein Distance可以帮助您,但我个人 - 我更喜欢经典化。