使用R

时间:2018-02-05 06:41:10

标签: r h2o text-classification gbm multiclass-classification

我正在研究多类文本分类问题。我已经建立了一个梯度增强模型。

关于数据集:

数据集有两列:" Test_name"和"描述"

Test_Name列中有六个标签及其相应的描述在"描述"列。

我解决问题的方法

数据准备

  1. 创建单词向量以进行描述。

  2. 使用单词vector构建语料库。

  3. 预处理任务,例如删除号码,空白,停用词和转换为小写。

  4. 构建文档术语矩阵(dtm)。

  5. 从上面的dtm中删除稀疏的单词。

  6. 上述步骤会产生一个计数频率矩阵,显示其相应列中每个单词的频率。

  7. 将计数频率矩阵转换为二进制实例矩阵,它将文档中单词的出现显示为0或1,1表示存在,0表示不存在。

  8. 使用转换后的dtm追加原始备注数据集中的标签列。标签栏有6个标签。

  9. 模型构建

    使用H2o包,构建一个gbm模型。

    获得的结果

    其中四个类标签分类良好,但其余两个分类不佳。

    以下是输出:

    Extract training frame with `h2o.getFrame("train")`
    MSE: (Extract with `h2o.mse`) 0.1197392
    RMSE: (Extract with `h2o.rmse`) 0.3460335
    Logloss: (Extract with `h2o.logloss`) 0.3245868
    Mean Per-Class Error: 0.3791268
    Confusion Matrix: Extract with `h2o.confusionMatrix(<model>,train = TRUE)`)
    
    Body Fluid Analysis =   401 / 2,759
    Cytology Test       =   182 / 1,087
    Diagnostic Imaging  =   117 / 3,907
    Doctors Advice      =      32 / 752
    Organ Function Test =     461 / 463
    Patient Related     =     101 / 113
    Totals              = 1,294 / 9,081
    

    器官功能测试和患者相关的错误分类错误相对较高。我该如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

您可以采取一些快速措施来改善这一点:

如果您提供更多详细信息和工作示例,可以采取更多措施来帮助您。