文档分类的决策树

时间:2010-06-24 23:57:19

标签: r nlp classification text-mining document-classification

您好我想知道是否可以使用决策树进行文档分类,如果是,那么数据表示应该如何? 我知道R包party用于决策树。

3 个答案:

答案 0 :(得分:2)

一种方法是拥有一个巨大的矩阵,其中每一行都是一个文档,每一列都是一个单词。单元格中的值是该单词在该文档中显示的次数。

然后,如果您正在处理“监督学习”案例,您应该为分类器添加另一列,并且从那里您可以使用像“rpart”这样的命令(来自rpart包)来创建分类树。该命令将以与您对线性模型(lm)类似的方式输入rpart的公式。

如果需要,您还可以尝试先将单词分组为“单词组”,然后让每列属于不同的单词组,并使用数字表示文档中有多少单词属于该组。为此,我将看看“tm”包。 (如果你最终做了一些事情,请考虑在这里发布,所以我们可以从中学习)

最佳, 塔尔

答案 1 :(得分:2)

本文对不同的文本分类技术及其准确性进行了调查。简而言之,您可以使用决策树对文本进行分类,但还有其他更好的算法。

Sebastiani,F。(2002)。自动文本分类中的机器学习。 ACM计算 调查,cs.IR/0110053v1。可从以下地址获取:http://arxiv.org/abs/cs.IR/0110053v1

答案 2 :(得分:0)

我对此表示怀疑 - 至少在通常定义的情况下,决策树使用单个标准来指定子分支。在对文档进行分类时,您很少会将大部分内容基于单一标准 - 您需要多个标准,即使这样,您也无法获得明确的树状决策,但“这比这更接近于此另一件事“有点结果。