在表格数据(非图像/文本)上应用LSTM进行分类并评估其性能指标

时间:2019-02-19 20:30:28

标签: tensorflow keras deep-learning classification lstm

该问题基于LSTM on sequential data, predicting a discrete column和我遇到的有用的公认答案。答案提供了一个观点,即LSTM有望在数据集上获得良好的性能。(我在我的数据上使用Ensemble Bagged Trees的准确度接近96.4%,并期望使用LSTM作为数据中的行顺序获得更好的性能很重要)。我正在尝试将LSTM应用于格式如下的表格数据集: Sample data structure

基本上是序列分类问题的一种时间序列,用于对表格数据集最后一列中的14个标签/目标进行分类。我一直在从上面提到的链接中引用可接受的答案,但是在以下方面感到困惑:在参考Stackoverflow答案中对LSTM分类性能的评估仅在训练数据集上进行,而没有针对测试数据集。我也尝试过使用sklearn.model_selection.train_test_split分割数据,但是它不起作用,从这种意义上说,张量的尺寸不匹配。我数据的最后一列中的标签是分类的(字符串类型),因此与参考问题不同,将数据转换为单热编码标签/使用标签编码器也将是必需的。我不确定如何将新数据放入模型中进行测试,并以相同的字符串/分类格式(如数据中的原始标签)返回预测。

如果能从表中提供有关测试集上LSTM模型性能评估的任何指南(例如将数据拆分为70-30%),我将不胜感激。另外,类似于机器学习模型,是否存在一种合适的方法来为分类开发混淆矩阵,并以字符串类型标签(以原始分类格式)取回预测的类?

0 个答案:

没有答案