稀疏数据集中的多类分类

时间:2019-08-20 14:02:21

标签: machine-learning classification multiclass-classification

我有一个工厂工作站的数据集。

在相同的特定时间有两种错误。

  1. 用户选择错误和时间间隔(因变量y)

  2. 机器在生产过程中产生错误(自变量x)

用户选择的错误类型共有8个唯一,因此我尝试使用机器产生的错误(总共188个类型)和一些其他数字功能(例如平均值)来预测这些错误。机器速度,机器体积等

每行代表特定时间的用户选择的错误;

例如,在第一行中,用户将时间间隔选择为:

2018-01-03 12:02:00-2018-01-03 12:05:37

和m_er_1(机器错误1)也在相同的时间间隔内发生了12次。

m_er_1_dur(机器错误1持续时间)是机器错误的总持续时间,以秒为单位

所以我匹配了这两个表,如下所示;

user_error   m_er_1  m_er_2  m_er_3  ...  m_er_188  avg_m_speed .. m_er_1_dur
  A            12     0        0            0          150            217
  B            0      0        2            0          10              0
  A            3      0        0            6          34             37
  A            0      0        0            0           5              0
  D            0      0        0            0           3              0
  E            0      0        0            0          1000            0

最后,我有1900行390行(376(188个机器错误计数+ 188个机器错误持续时间)+ 14个数字特征),由于机器错误,它是一个稀疏的数据集,很多0。

没有异常值,没有nan值,我进行了归一化并尝试了几种分类算法(SVM,逻辑回归,MLPC,XGBoost等)

我也尝试了PCA,但效果不佳,因为165个组件的解释性_variance_ratio约为0.95

但是准确度指标非常低,因为逻辑回归准确度得分为0.55,MCC得分约为0.1,召回率,f1和精确度也很低。

我错过了一些步骤吗?您对稀疏数据集的多类分类有何建议?

预先感谢

0 个答案:

没有答案