如何使用训练有素的机器学习模型预测未标记的测试数据?

时间:2019-05-21 06:30:48

标签: python machine-learning scikit-learn

我已经写了一个基于ML的入侵预测。在学习过程中,我使用了带有标签的训练和测试数据来评估准确性并生成混淆矩阵。我提出了很好的准确性,现在我想用新数据(未标记的数据)对其进行测试。我该怎么办?

1 个答案:

答案 0 :(得分:0)

好吧,假设您对未标记的数据进行了测试,并且算法预测了一些X输出。您如何检查准确性,如何检查是否正确?这是预测中唯一重要的事情,即程序如何处理以前从未见过的数据。

简单的答案是,你不能。您需要将数据拆分为:

  1. 培训70%
  2. 验证10%
  3. 测试20%

所有这些都应该进行标记,并且应该根据程序之前从未见过的标记测试数据来计算准确性,混淆矩阵,f度量以及其他任何内容。您的培训数据是训练数据,并不时检查验证数据的性能,以查看其运行情况是否良好,或者是否需要进行调整。最后,您检查测试数据。这是有监督的学习,您始终需要标记的数据。