如何从数据库中的多行中选择相似的单词或短语?
我所拥有的:大约100k产品的标题
我需要的是:聚集类似的产品类型 - 获得群组最常见的标题
你可以想象有很多种电视,衣服和其他东西。 想法是提取“三星电视”,“红色礼服”,“太阳镜”等内容。应该有一些分数来确定相对性(就像你在mysql中从匹配得到的分数一样)。
电视的原始数据示例(它应该是“TV Android”):
技术不是那么重要,它可以在php,java,node,mysql中循环......
任何想法怎么做? :)
P.S。如果它更容易,它可以移植到弹性..