在机器学习中训练和测试数据

时间:2019-02-09 17:15:00

标签: machine-learning k-means

我想使用K-means算法训练数据,然后对另一种相似的数据进行测试,仅删除一列。我是机器学习的新手,因此从https://www.datacamp.com/community/tutorials/k-means-clustering-python那里获取了代码以应用于我的一个数据集,但是在此网站中,预测部分在哪里进行?我们只是提供数据并测试准确性。我们如何将算法应用于测试数据(显然会有所不同)以预测缺失属性的值?

1 个答案:

答案 0 :(得分:0)

当您开始学习机器学习时,经常会感到困惑。

来自Wikipedia

  

监督学习是机器学习的机器学习任务   根据示例输入输出将输入映射到输出的函数   对。它从标记的训练数据推断功能,包括   一组培训示例。在监督学习中,每个例子   是由输入对象(通常是矢量)和   所需的输出值(也称为监控信号)。一种   监督学习算法分析训练数据并产生   推断函数,可用于映射新示例。一个   最佳方案将使算法能够正确确定   看不见的实例的类标签。这需要学习   算法从训练数据推广到看不见的情况   一种“合理”的方式(请参见归纳偏差)。

也来自Wikipedia

  

无监督学习是机器学习的一个分支,可以从中学习   未标记,分类或分类的测试数据。   无需回应反馈,无监督学习可以识别   数据的共性,并根据是否存在做出反应   每个新数据中的这种共性。

K-means聚类算法是无监督学习算法。 在无监督学习中,您没有标签,因为您没有尝试预测某些东西。相反,您正在尝试找到一种将具有共同特征的数据点分组在一起的方式来对数据进行聚类的方法。

首先在监督学习中使用测试(通常为validation)集的原因是评估模型的泛化属性,以避免over-fitting。但是,在无监督学习中,由于您不知道数据的实际群集,因此无法对此进行评估。因此,没有必要使用测试集。