我有100个学生的四个课程(例如课程a,课程b,课程c,课程d)的成绩数据集,让我们想象这个成绩与 课程等级f。
我希望通过四年级实现预测等级课程的朴素贝叶斯,但我不知道如何使用输入。 我读了朴素贝叶斯的垃圾邮件检测,其中,每个单词的可能性计算。 但是对于年级我不知道我必须计算什么可能性。 我尝试过垃圾邮件但是在这个例子中我只有四个名字(每节课)
答案 0 :(得分:1)
为了进行良好的分类,您需要获得一些关于学生的信息而不是他们正在上课的信息。根据您的例子,垃圾邮件检测基于单词,停止通常是垃圾邮件(购买,促销,金钱)或来自http标头的来源。 对于预测学生成绩的案例,你可以想象有关于学生的信息:社会阶层,他做运动,男性还是女性等等。
回到你的问题,这不是有趣课程的名称,而是每个学生在本课程中获得的成绩。你需要学习每门课程和课程f的成绩来训练天真的贝叶斯分类器。
您的参赛作品可能如下:
StudentID gradeA gradeB gradeC gradeD gradeF
1 10 9 8 5 8
2 3 5 3 8 8
3 5 3 1 1 2
4 10 10 10 5 4
训练完分类器后,您将为新学生传递新条目:
StudentID gradeA gradeB gradeC gradeD
1058 1 5 8 4
分类器将能够根据演出者等级预测课程F的等级。
你可能已经注意到我有意做了一个训练数据集,其中gradeF与gradeD高度相关。贝叶斯分类器将尝试以更复杂的方式学习它。