我有一个独特的问题,我不知道任何可以帮助我的算法。也许有人在这里。
我有一个从许多不同来源(团队)编译的数据集。特别是一个字段称为“类型”。以下是类型的一些示例值:
aple,苹果,苹果,ornge,水果,橙子,橙子,梨, 花椰菜,colifower,brocli,brocoli,韭菜,蔬菜,蔬菜。
我希望能够将它们组合成例如水果,蔬菜等。
换句话说,我对父级变量(本例中的水果或蔬菜)的各种排列有多种拼写,我需要能够尽可能地对它们进行分组。
数据的唯一其他潜在相关特征是进入它的团队,假设每个团队输入数据的方式有一定的一致性。
所以,我有几百万个拼写和拼写错误(例如苹果,appls)的记录,我想以某种方式将它们组合在一起。在这个例子中,水果和蔬菜。
聚类将具有挑战性,因为每个条目通常是1或2个单词,这使得计算术语之间的距离变得棘手。
如果没有创建由人类创建的大量查找表(不太可能有数百万行),我可以采取任何方法解决这个问题吗?
答案 0 :(得分:1)
您需要首先解决拼写问题,除非您拥有Google规模数据,可以让您通过Google比例统计学习修复拼写。
然后你仍然会遇到" Apple"可以是水果或电脑。 Apple和" Granny Smith"将完全不同。你最好在第二阶段猜测就像word2vec训练大量的数据一样。然后你得到高维词向量,并且最终可以尝试解决聚类挑战,如果你得到了那么好的结果。祝你好运。