我是机器学习的新手。我想训练一个KNN分类器,数据集有50个完整记录(没有缺失值)和103个不完整记录(包括缺失值)
我想问一下,这个数据集是否可用于分类目的。或者我应该搜索一些新的数据集?
我附加了一些来自我的数据集的截图..POS是数据集中的标签类。
答案 0 :(得分:0)
转到安全数据集,例如默认的" iris数据集"由scikit提供了解自己 您还可以在UCI机器学习库中搜索好的数据集。
答案 1 :(得分:0)
如果您的要素空间的大小为n
,即没有输入列,而不是k*n
,其中k> = 3,那么完整的样本数量应该是一个很好的数据量来开始
您还可以考虑使用均值或任何其他推断方法来估算数据(缺失值)。
有时提倡的一种粗略的启发式是数量 数据点应不小于某个倍数(比如说5或10) 模型中的自适应参数数量。 - Bishop, Page no. 9