我需要一种方法来澄清以下数据集的主要主题,预处理所有文档后生成的以下数据集,
以下选定的主题频率如下:
TOPICS
id Doc-name total words Politics sport food animals
1 doc1 1000 300 250 100 350
2 doc2 2000 1000 400 200 400
3 doc3 4000 500 300 2000 200
etc...
问题是: 这种数据集有什么分类方法吗? 如果我认为doc1是动物是真的吗? 有没有办法计算该文档中每个主题的概率,以找到doc主导话题? 有什么建议吗?
答案 0 :(得分:0)
这种分类方法仅在应根据给定主题确定文档类型时才有效。在任何情况下,这种类型的分析都无法了解博客所依据的真实背景。
如果我说" 这句话的背景是什么?运动员肯定比任何猫,狗,牛或羊都要快"?它讲的是动物吗?
通过这种类型的分析,您可以对句子的背景做出的唯一结论是" 该句子具有导致描述体育和动物的因素。这些因素的参与是4到2 "。
您可以使用标准方法继续计算概率。但数字与真实背景的相关性可能很遥远。