应用错误收集

将数据与文本标识符合并

时间：2015-02-23 11:24:02

标签： categorical-data dataset

我正在尝试在公司层面合并一堆数据集。问题是我的数据集只识别带有文本字符串的公司名称（即＆＃34; Ham和Cheese LLP＆＃34;），有时还会以其他方式拼错或拼写名称（即＆＃34; Ham和Cheese＆＃34; ，＆＃34;火腿和奶酪＆＃34;，＆＃34;火腿奶酪＆＃34;）。

有没有办法使用某种倾向匹配算法为这些数据分配唯一标识符，最好是Excel，STATA或MATLAB？

1 个答案:

答案 0 :(得分：0)

在Excel中，您可以使用levenshtein距离函数，如以下链接

Levenshtein Distance in Excel