使用文本数据确定规范类

时间:2017-06-27 06:33:48

标签: cluster-analysis text-mining word2vec

我有一个独特的问题,我不知道任何可以帮助我的算法。也许有人在这里。

我有一个从许多不同来源(团队)编译的数据集。特别是一个字段称为“类型”。以下是类型的一些示例值:

  

aple,苹果,苹果,ornge,水果,橙子,橙子,梨,   花椰菜,colifower,brocli,brocoli,韭菜,蔬菜,蔬菜。

我希望能够将它们组合成例如水果,蔬菜等。

换句话说,我对父级变量(本例中的水果或蔬菜)的各种排列有多种拼写,我需要能够尽可能地对它们进行分组。

数据的唯一其他潜在相关特征是进入它的团队,假设每个团队输入数据的方式有一定的一致性。

所以,我有几百万个拼写和拼写错误(例如苹果,appls)的记录,我想以某种方式将它们组合在一起。在这个例子中,水果和蔬菜。

聚类将具有挑战性,因为每个条目通常是1或2个单词,这使得计算术语之间的距离变得棘手。

如果没有创建由人类创建的大量查找表(不太可能有数百万行),我可以采取任何方法解决这个问题吗?

1 个答案:

答案 0 :(得分:1)

您需要首先解决拼写问题,除非您拥有Google规模数据,可以让您通过Google比例统计学习修复拼写。

然后你仍然会遇到" Apple"可以是水果或电脑。 Apple和" Granny Smith"将完全不同。你最好在第二阶段猜测就像word2vec训练大量的数据一样。然后你得到高维词向量,并且最终可以尝试解决聚类挑战,如果你得到了那么好的结果。祝你好运。