我想将数百万行商家名称分类/分类/群集/分组到其标准化商家名称。例如, 沃尔玛 沃尔玛纽约 3.沃尔玛#12 AHN 4. Wal3mart 5.山姆俱乐部
都属于“WALMART”的标准名称。我有数百万行商户名称和标准名称(接近60k),每个月都有新的商家名称。商家名称可能是拼写错误,更大商家的子公司,合并和收购,捷径等。< / p>
有没有办法,我们可以培训机器学习算法来对这些商业名称进行分类。
我的初步想法是将属于一个标准化名称的所有商家名称表示为一组向量,然后使用支持向量机在所有不同的标准化商家名称之间绘制超平面,并在新商家名称出现时,将其表示为向量并查看哪个标准化商家名称组,此新商家名称最接近使用相似度得分(例如余弦距离)。
但是,我想知道是否有任何其他方法可以将这些商家名称表示为我可以用于此问题陈述的任何其他算法的功能。任何大脑=暴风雨都会非常感激。提前致谢