我对机器学习相对较新,并且正在尝试将决策树归纳为宏观方案。决策树(例如,使用C4.5或ID3构建的树)是否被视为参数树或非参数树?我猜他们可能确实是参数化的,因为可以从特征值的某些分布(例如均值)确定实际值的决策分裂点。但是,他们不会分享必须保留所有原始训练数据的非参数特征(就像kNN那样)。
答案 0 :(得分:10)
术语“参数”是指定义数据分布的参数。由于诸如C4.5之类的决策树不对数据的分布做出假设,因此它们是非参数的。高斯最大似然分类(GMLC)是参数的,因为它假设数据遵循多元高斯分布(类由均值和协方差表征)。关于你的最后一句,保留训练数据(例如,基于实例的学习)对于所有非参数分类器并不常见。例如,人工神经网络(ANN)被认为是非参数的,但它们不保留训练数据。
答案 1 :(得分:0)
参数化是指模型的参数数量与数据之间的关系。
如果参数数量固定,则模型是参数化的。
如果参数数量随数据增长,则该模型为非参数模型。
决策树不是参数化的,但是如果您限制它的大小以进行正则化,那么在一定的数据复杂性之后它将变成参数化的。
KNN绝对是参数化的,因为参数是数据。