商店中的自动分类商品是否有可能?

时间:2015-10-07 18:52:07

标签: neural-network classification categories text-classification

我是商店中商品的数据库。它们都是蔬菜,水果,坚果,浆果等......我需要对它们进行分类。例如,我应该将不同类型的土豆分组在一组 - 马铃薯,西红柿 - 番茄等......

最直观的方法是使用规则进行分组,例如,如果某个项目的名称包含单词potato,则应将其归入类别potatoes等等......

但是有许多类别,我正在寻找自动方法。例如,在一组项目中查找最常见的单词。

我确定我不是第一个解决这个问题的人,因此它应该已经解决,至少部分解决了。也许还有可以帮助我的神经网络库。

提前谢谢。

P.S。最优选的解决方案是基于Java的解决方案,但不是必须的。

1 个答案:

答案 0 :(得分:1)

根据我对您(尽管缺乏)示例的理解,您可以执行以下操作:

  1. 标记化(在您的情况下 - 只是拆分为单词,删除标点符号)
  2. Stemming(Porter stemmer会这样做)
  3. 删除停用词
  4. 你已经完成了。您可以将结果用于标记/分类。 SO处理这些过程有很多问题,例如: Tokenizer, Stop Word Removal, Stemming in Java