朴素贝叶斯的GPA分类?

时间:2017-04-22 04:41:38

标签: r classification regression

作为机器学习的初学者,我面临一个项目,我必须找到一种方法,使用从调查中收集的分类和数字变量来预测孩子的“离散化”GPA值。

例如,x变量包括是/否/不知道对诸如“我担心参加考试”等问题的回答,以及家庭收入等数字答案。这些调查是给老师,看护人和孩子们自己做的。

y变量是GPA,范围从1到4,离散增量为0.25。

我所尝试的是使用boruta包从超过10000个特征中挑选出最相关的65个特征(并且所有特征都有意义 - 它们通常与孩子的行为有关在学校,和/或孩子在标准化考试中的分数/百分位数)。以下是boruta选择的功能示例。

A3D. Your dad misses events or activities that are important to you
G2C. I worry about taking tests
G2D. It's hard for me to pay attention
G2H. It's hard for me to finish my schoolwork
G2I. I worry about doing well in school
G2M. I get in trouble for talking and disturbing others
G19A. Frequency you had 4 or more drinks in one day in past 12 months
E6A. Father could count on someone to co-sign for a bank loan for $5000
i13. how much you earn in that job, before taxes
I19A. Amount earned from all regular jobs in past 12 months
J1. Total household income before taxes/deductions in past 12 months
J4A. Name on bank account
J6B. Amount owed on your vehicle

然后我运行了一个朴素的贝叶斯分类器。我不知道这是否合适,或者是否有更好的方法来完成这项任务,但结果非常糟糕。当实际值应介于两者之间时,模型通常会产生极值,例如1和4。我认为我有相关的任务功能,但不知何故,准确性非常低。

我还使用默认参数尝试了来自caret包的渐变增强机,但结果也不是很令人满意。

我可以做些什么来改进模型,是否有更好的方法可以尝试?

如果我想获得更好的准确度/最小化错误,回归是否更适合这个?

谢谢!

0 个答案:

没有答案