我正在研究多类文本分类问题。我已经建立了一个梯度增强模型。
关于数据集:
数据集有两列:" Test_name"和"描述"
Test_Name列中有六个标签及其相应的描述在"描述"列。
创建单词向量以进行描述。
使用单词vector构建语料库。
预处理任务,例如删除号码,空白,停用词和转换为小写。
构建文档术语矩阵(dtm)。
从上面的dtm中删除稀疏的单词。
上述步骤会产生一个计数频率矩阵,显示其相应列中每个单词的频率。
将计数频率矩阵转换为二进制实例矩阵,它将文档中单词的出现显示为0或1,1表示存在,0表示不存在。
使用转换后的dtm追加原始备注数据集中的标签列。标签栏有6个标签。
使用H2o包,构建一个gbm模型。
其中四个类标签分类良好,但其余两个分类不佳。
以下是输出:
Extract training frame with `h2o.getFrame("train")`
MSE: (Extract with `h2o.mse`) 0.1197392
RMSE: (Extract with `h2o.rmse`) 0.3460335
Logloss: (Extract with `h2o.logloss`) 0.3245868
Mean Per-Class Error: 0.3791268
Confusion Matrix: Extract with `h2o.confusionMatrix(<model>,train = TRUE)`)
Body Fluid Analysis = 401 / 2,759
Cytology Test = 182 / 1,087
Diagnostic Imaging = 117 / 3,907
Doctors Advice = 32 / 752
Organ Function Test = 461 / 463
Patient Related = 101 / 113
Totals = 1,294 / 9,081
器官功能测试和患者相关的错误分类错误相对较高。我该如何解决这个问题?
答案 0 :(得分:0)
您可以采取一些快速措施来改善这一点:
h2o.grid
:http://docs.h2o.ai/h2o/latest-stable/h2o-docs/grid-search.html)如果您提供更多详细信息和工作示例,可以采取更多措施来帮助您。