我从二手相机交易平台挖掘数据。
人们给同一产品命名。我获得的数据如下:
...
Canon 50mm f1.4
Canon 50mm 1.4
Canon 50mm 1.4 USM
Canon 70-200mm f4L
Canon 70-200mm f4 L
...
many more
我的目标是培训系统将item 1-3
识别为一种产品,而将item 4-5
识别为另一种产品。在我的数据集中,我不知道有多少不同的产品。
我已阅读此answer。
它表明Bayesian classification
很有用。
但是,鉴于我不知道有多少产品,我无法提供培训。
另一个答案表明clustering
应该用于对名称相似的产品进行分组。同样,K-means
只能在K
(在这种情况下为不同产品的数量)已知时使用。
所以在我的情况下,可以使用什么算法?你可以用我的数据作为例子解释一下吗?谢谢!