识别具有(稍微)不同名称的相同产品的算法

时间:2014-05-24 06:16:32

标签: algorithm machine-learning k-means bayesian

我从二手相机交易平台挖掘数据。

人们给同一产品命名。我获得的数据如下:

...
Canon 50mm f1.4
Canon 50mm 1.4
Canon 50mm 1.4 USM
Canon 70-200mm f4L
Canon 70-200mm f4 L
...
many more 

我的目标是培训系统将item 1-3识别为一种产品,而将item 4-5识别为另一种产品。在我的数据集中,我不知道有多少不同的产品。

我已阅读此answer

它表明Bayesian classification很有用。 但是,鉴于我不知道有多少产品,我无法提供培训。

另一个答案表明clustering应该用于对名称相似的产品进行分组。同样,K-means只能在K(在这种情况下为不同产品的数量)已知时使用。

所以在我的情况下,可以使用什么算法?你可以用我的数据作为例子解释一下吗?谢谢!

0 个答案:

没有答案