我被困(再次)并且需要智慧。这次我试图对一堆文件进行分类,其中每个文档可以具有1:n分类。
RTextTools示例数据集NYTIMES为每个故事分配一个主题代码,因此工作示例只是...工作。
但实际上很多新闻故事都有多个代码。那么如果不是让NYTimes $ Topic.Code你有一个更像......的结构呢?
Article_ID Date Title Subject Topic.Code
1 1-Jan-96 A Title A subject text 2
2 1-Jan-96 B Title B subject text 1,2
3 2-Jan-96 C Title C subject text 3
4 3-Jan-96 D Title D subject text 2,3
and so on...
这也可以用Topic.Code表示,分别为每个唯一代码的单独列,并设置为TRUE / FALSE ......
Article_ID Date Title Subject Topic.Code1 Topic.Code2 Topic.Code3
1 1-Jan-96 A Title A subject text FALSE TRUE FALSE
2 1-Jan-96 B Title B subject text TRUE TRUE FALSE
3 2-Jan-96 C Title C subject text FALSE FALSE TRUE
4 3-Jan-96 D Title D subject text FALSE TRUE TRUE
and so on...
你怎么会尝试使用RTextTools训练这种1:n情况?
答案 0 :(得分:0)
RTextTools不适用于多依赖变量分类。您可以使用多感知器网络。如果您仍想使用RTextTools,请使用主题的值作为因子,以便将每个主题组合标识为单个因子。