将数据与文本标识符合并

时间:2015-02-23 11:24:02

标签: categorical-data dataset

我正在尝试在公司层面合并一堆数据集。问题是我的数据集只识别带有文本字符串的公司名称(即" Ham和Cheese LLP"),有时还会以其他方式拼错或拼写名称(即" Ham和Cheese" ,"火腿和奶酪","火腿奶酪")。

有没有办法使用某种倾向匹配算法为这些数据分配唯一标识符,最好是Excel,STATA或MATLAB?

1 个答案:

答案 0 :(得分:0)

在Excel中,您可以使用levenshtein距离函数,如以下链接

Levenshtein Distance in Excel