标签: categorical-data dataset
我正在尝试在公司层面合并一堆数据集。问题是我的数据集只识别带有文本字符串的公司名称(即" Ham和Cheese LLP"),有时还会以其他方式拼错或拼写名称(即" Ham和Cheese" ,"火腿和奶酪","火腿奶酪")。
有没有办法使用某种倾向匹配算法为这些数据分配唯一标识符,最好是Excel,STATA或MATLAB?
答案 0 :(得分:0)
在Excel中,您可以使用levenshtein距离函数,如以下链接
Levenshtein Distance in Excel