Question

我需要一种方法来澄清以下数据集的主要主题，预处理所有文档后生成的以下数据集，
以下选定的主题频率如下：

                                         TOPICS 
id   Doc-name   total words     Politics    sport    food   animals  
1       doc1        1000          300         250     100     350
2       doc2        2000          1000        400     200     400
3       doc3        4000          500         300     2000    200
etc...

问题是：这种数据集有什么分类方法吗？如果我认为doc1是动物是真的吗？有没有办法计算该文档中每个主题的概率，以找到doc主导话题？有什么建议吗？

Answer 1

这种分类方法仅在应根据给定主题确定文档类型时才有效。在任何情况下，这种类型的分析都无法了解博客所依据的真实背景。

如果我说＆＃34; 这句话的背景是什么？运动员肯定比任何猫，狗，牛或羊都要快＆＃34;？它讲的是动物吗？

通过这种类型的分析，您可以对句子的背景做出的唯一结论是＆＃34; 该句子具有导致描述体育和动物的因素。这些因素的参与是4到2 ＆＃34;。

您可以使用标准方法继续计算概率。但数字与真实背景的相关性可能很遥远。

基于主题频率

1 个答案: