我是商店中商品的数据库。它们都是蔬菜,水果,坚果,浆果等......我需要对它们进行分类。例如,我应该将不同类型的土豆分组在一组 - 马铃薯,西红柿 - 番茄等......
最直观的方法是使用规则进行分组,例如,如果某个项目的名称包含单词potato
,则应将其归入类别potatoes
等等......
但是有许多类别,我正在寻找自动方法。例如,在一组项目中查找最常见的单词。
我确定我不是第一个解决这个问题的人,因此它应该已经解决,至少部分解决了。也许还有可以帮助我的神经网络库。
提前谢谢。
P.S。最优选的解决方案是基于Java的解决方案,但不是必须的。
答案 0 :(得分:1)
根据我对您(尽管缺乏)示例的理解,您可以执行以下操作:
你已经完成了。您可以将结果用于标记/分类。 SO处理这些过程有很多问题,例如: Tokenizer, Stop Word Removal, Stemming in Java