我有一个公司列表,并希望匹配使用谷歌搜索获取的域名,以确定哪些域名可能属于同一家公司。是否存在可用于此用例的现有算法(法律上也允许在商业项目中使用)。
e.g。我有互联网电影数据库作为公司名称,并说google返回结果,其中有效的可能是internetmoviedatabase,internet-movie-database,the-internet-movie-database,theinternetmoviedatabase,internetmovies,internet-movies,imd,imdb 。(注意:我已从列表中排除TLD以使问题更简单)
答案 0 :(得分:1)
听起来你正在寻找一个近似的字符串匹配算法。 不确定您是在寻找算法还是实现。
这里已经有一个问题: String matching algorithm
一种可能的解决方案是使用Levenshtein距离:http://en.wikipedia.org/wiki/Levenshtein_distance
如果您正在寻找实现,如果您谷歌“近似字符串匹配C ++”,这是第一个结果: http://www.chokkan.org/software/simstring/
祝你好运!