C5.0决策树 - 输入字符串1在此语言环境中无效

时间:2016-06-04 04:13:57

标签: r decision-tree

我之前已经阅读了相关的问题,但仍然无法解决我的问题,我的训练数据没有缺失值,所以我不知道哪里出错了。

另一个问题是树大小为1,所有预测结果为0(标签为0或1)。我知道这是一个非常不平衡的情况(0标签占98%),我该如何解决这个问题呢?

model_boost<-C5.0(train,train_label) 

错误:

  

c50代码名为exit,值为1

警告讯息:

  

strsplit(Z$output, "\n")中:输入字符串1在此语言环境中无效

培训数据:

  

STR(火车)   &#39; data.frame&#39;:7500 obs。共148个变量:    $ CI_CUSTYPE:因子w / 4级&#34;个人&#34;,&#34;家庭&#34;,..:2 2 2 2 2 2 2 2 1 2 ...    $ CI_COUNTRY_FLAG:因子w / 3级&#34; 1&#34;,&#34; 2&#34;,&#34; 3&#34;:3 2 3 2 2 2 2 2 2 1 ...    $ CI_AGE:int -1 44 31 53 58 -1 -1 46 43 61 ...    $ CI_GENDER:因子w / 3级&#34;男&#34;,&#34;女&#34;,&#34;未知&#34;:3 1 1 2 2 3 3 2 2 1 .. 。    $ CI_CITY:因子w / 21水平&#34;阿坝&#34;,&#34;巴中&#34;,..:16 18 9 3 3 4 5 1 3 19 ...    $ CI_TENURE:int 4 44 205 92 92 26 9 110 24 48 ...    $ IS_DUAL_MODE:因子w / 4级&#34; 0&#34;,&#34; 1&#34;,&#34; 2&#34;,&#34; 3&#34;:2 2 2 1 2 1 4 4 4 2 ...    $ PD_CDMA_PAYMODE:因子w / 2级&#34; 1&#34;,&#34; 2&#34;:2 1 2 2 2 1 1 2 1 1 ...    $ PD_CDMA_TENURE:int 49 43 64 39 19 36 8 52 15 47 ...    $ VO_MOU_TOTAL_AVG:int 9520 344 2287 253 460 249 3 885 623 457 ......

train_label

  

STR(train_label)    因子w / 2级&#34; 0&#34;,&#34; 1&#34;:1 1 1 1 1 1 1 1 1 1。   打印(头(train_label))   [1] 0 0 0 0 0 0   级别:0 1

0 个答案:

没有答案