我经常需要检查网页上的某些字符串,这些字符串不一定拼写完全相同。例如,有时我会为 google 这样的字符串筛选一个页面,然后在我希望它匹配的其他页面上,让我们说: gooogle < / em> 或 Google Inc. 。
从模式匹配和算法的角度开始?
答案 0 :(得分:0)
理论: 搜索编辑距离: https://en.wikipedia.org/wiki/Edit_distance
和n-gram: https://en.wikipedia.org/wiki/N-gram
这是一个提供这些功能的实际框架: fuzzyset.js