我有一个工厂工作站的数据集。
在相同的特定时间有两种错误。
用户选择错误和时间间隔(因变量y)
机器在生产过程中产生错误(自变量x)
用户选择的错误类型共有8个唯一,因此我尝试使用机器产生的错误(总共188个类型)和一些其他数字功能(例如平均值)来预测这些错误。机器速度,机器体积等
每行代表特定时间的用户选择的错误;
例如,在第一行中,用户将时间间隔选择为:
2018-01-03 12:02:00-2018-01-03 12:05:37
和m_er_1(机器错误1)也在相同的时间间隔内发生了12次。
m_er_1_dur(机器错误1持续时间)是机器错误的总持续时间,以秒为单位
所以我匹配了这两个表,如下所示;
user_error m_er_1 m_er_2 m_er_3 ... m_er_188 avg_m_speed .. m_er_1_dur
A 12 0 0 0 150 217
B 0 0 2 0 10 0
A 3 0 0 6 34 37
A 0 0 0 0 5 0
D 0 0 0 0 3 0
E 0 0 0 0 1000 0
最后,我有1900行390行(376(188个机器错误计数+ 188个机器错误持续时间)+ 14个数字特征),由于机器错误,它是一个稀疏的数据集,很多0。
没有异常值,没有nan值,我进行了归一化并尝试了几种分类算法(SVM,逻辑回归,MLPC,XGBoost等)
我也尝试了PCA,但效果不佳,因为165个组件的解释性_variance_ratio约为0.95
但是准确度指标非常低,因为逻辑回归准确度得分为0.55,MCC得分约为0.1,召回率,f1和精确度也很低。
我错过了一些步骤吗?您对稀疏数据集的多类分类有何建议?
预先感谢