使用特定的一般主题(我的示例中的宠物)中的当前数据集,我手动搜索高级主题或类别,然后进一步细分。
我想使用机器学习来完成关于各种主题的任务。
对于第一个用例,我们可以使用宠物。内容基于各种文本关键词:狗,猫,龟,鱼,兔。
分类:猫品种,犬种,猫家具,猫玩具,狗玩具等。
子类别:基于类别非常明显。
然而,这些需要基于内容并从最多到最少量的内容排名。我还想为每个级别的类别设置一个阈值,并生成子类别。
有人告诉我,这类似于分类算法,看看Word2Vec,但我正在寻找有经验的人的建议。
我可能需要添加更多详细信息。请评论,我会回复。
答案 0 :(得分:0)
您可以使用word2vec来探索单词的语义关系,这可能会提供与常见类别相关的子类别的线索。
您可以探索的另一种方法是使用链接文字标签的现有本体(例如,基于WordNet similarity基于Sentence Similarity Based on Semantic Nets and Corpus Statistics)。这个可能更容易入手。您可以使用此指标为子类别分配公共类别并对类似的子类别进行分组。