Question

我有一个工厂工作站的数据集。

在相同的特定时间有两种错误。

用户选择错误和时间间隔（因变量y）
机器在生产过程中产生错误（自变量x）

用户选择的错误类型共有8个唯一，因此我尝试使用机器产生的错误（总共188个类型）和一些其他数字功能（例如平均值）来预测这些错误。机器速度，机器体积等

每行代表特定时间的用户选择的错误；

例如，在第一行中，用户将时间间隔选择为：

2018-01-03 12:02:00-2018-01-03 12:05:37

和m_er_1（机器错误1）也在相同的时间间隔内发生了12次。

m_er_1_dur（机器错误1持续时间）是机器错误的总持续时间，以秒为单位

所以我匹配了这两个表，如下所示；

user_error   m_er_1  m_er_2  m_er_3  ...  m_er_188  avg_m_speed .. m_er_1_dur
  A            12     0        0            0          150            217
  B            0      0        2            0          10              0
  A            3      0        0            6          34             37
  A            0      0        0            0           5              0
  D            0      0        0            0           3              0
  E            0      0        0            0          1000            0

最后，我有1900行390行（376（188个机器错误计数+ 188个机器错误持续时间）+ 14个数字特征），由于机器错误，它是一个稀疏的数据集，很多0。

没有异常值，没有nan值，我进行了归一化并尝试了几种分类算法（SVM，逻辑回归，MLPC，XGBoost等）

我也尝试了PCA，但效果不佳，因为165个组件的解释性_variance_ratio约为0.95

但是准确度指标非常低，因为逻辑回归准确度得分为0.55，MCC得分约为0.1，召回率，f1和精确度也很低。

我错过了一些步骤吗？您对稀疏数据集的多类分类有何建议？

预先感谢

稀疏数据集中的多类分类

0 个答案: