在监督学习中分类器训练需要多少记录

时间:2017-06-11 09:21:55

标签: classification data-science supervised-learning

我是机器学习的新手。我想训练一个KNN分类器,数据集有50个完整记录(没有缺失值)和103个不完整记录(包括缺失值)

我想问一下,这个数据集是否可用于分类目的。或者我应该搜索一些新的数据集?

我附加了一些来自我的数据集的截图..POS是数据集中的标签类。

screenshot of dataset

2 个答案:

答案 0 :(得分:0)

转到安全数据集,例如默认的" iris数据集"由scikit提供了解自己 您还可以在UCI机器学习库中搜索好的数据集。

答案 1 :(得分:0)

如果您的要素空间的大小为n,即没有输入列,而不是k*n,其中k> = 3,那么完整的样本数量应该是一个很好的数据量来开始

您还可以考虑使用均值或任何其他推断方法来估算数据(缺失值)。

  

有时提倡的一种粗略的启发式是数量   数据点应不小于某个倍数(比如说5或10)   模型中的自适应参数数量。 - Bishop, Page no. 9