例如,我有像这样的n个人的数据集
userID 1 (or 2,3.....up to n)
gender male (or female)
working yes (or No)
income >$5000/month (or <$5000)
have_car yes (or no)
我想预测一个人是否有车或不依赖其他财产(性别,工作和收入)。我应该用什么格式进行培训,有多少人应该接受培训,有多少人可以测试,如果说我有10,000人的数据
答案 0 :(得分:0)
格式:您必须使用数字数据。因此,使用0和1可以使用二进制分区。
培训/测试:没有确切的公式。您似乎没有很多用于分类的功能 - 这意味着您不一定需要大量的trainingdata。你可以将其分开50:50开始并检查你是否得到了合理的结果。