Question

我被困（再次）并且需要智慧。这次我试图对一堆文件进行分类，其中每个文档可以具有1：n分类。

RTextTools示例数据集NYTIMES为每个故事分配一个主题代码，因此工作示例只是...工作。

但实际上很多新闻故事都有多个代码。那么如果不是让NYTimes $ Topic.Code你有一个更像......的结构呢？

Article_ID Date     Title       Subject          Topic.Code
1          1-Jan-96 A Title     A subject text   2
2          1-Jan-96 B Title     B subject text   1,2
3          2-Jan-96 C Title     C subject text   3
4          3-Jan-96 D Title     D subject text   2,3
and so on...

这也可以用Topic.Code表示，分别为每个唯一代码的单独列，并设置为TRUE / FALSE ......

Article_ID Date     Title       Subject          Topic.Code1 Topic.Code2 Topic.Code3
1          1-Jan-96 A Title     A subject text   FALSE       TRUE        FALSE
2          1-Jan-96 B Title     B subject text   TRUE        TRUE        FALSE
3          2-Jan-96 C Title     C subject text   FALSE       FALSE       TRUE
4          3-Jan-96 D Title     D subject text   FALSE       TRUE        TRUE
and so on...

你怎么会尝试使用RTextTools训练这种1：n情况？

Answer 1

RTextTools不适用于多依赖变量分类。您可以使用多感知器网络。如果您仍想使用RTextTools，请使用主题的值作为因子，以便将每个主题组合标识为单个因子。

RTextTools - 多个分类器

1 个答案: