天真的贝叶斯预测等级

时间:2015-03-19 06:16:46

标签: machine-learning email-spam bayesian-networks

我有100个学生的四个课程(例如课程a,课程b,课程c,课程d)的成绩数据集,让我们想象这个成绩与 课程等级f。

我希望通过四年级实现预测等级课程的朴素贝叶斯,但我不知道如何使用输入。 我读了朴素贝叶斯的垃圾邮件检测,其中,每个单词的可能性计算。 但是对于年级我不知道我必须计算什么可能性。 我尝试过垃圾邮件但是在这个例子中我只有四个名字(每节课)

1 个答案:

答案 0 :(得分:1)

为了进行良好的分类,您需要获得一些关于学生的信息而不是他们正在上课的信息。根据您的例子,垃圾邮件检测基于单词,停止通常是垃圾邮件(购买,促销,金钱)或来自http标头的来源。 对于预测学生成绩的案例,你可以想象有关于学生的信息:社会阶层,他做运动,男性还是女性等等。

回到你的问题,这不是有趣课程的名称,而是每个学生在本课程中获得的成绩。你需要学习每门课程和课程f的成绩来训练天真的贝叶斯分类器。

您的参赛作品可能如下:

StudentID   gradeA  gradeB   gradeC    gradeD   gradeF
1             10       9       8         5         8
2              3       5       3         8         8
3             5        3       1         1         2
4             10      10       10        5         4

训练完分类器后,您将为新学生传递新条目:

StudentID   gradeA  gradeB   gradeC    gradeD  
1058          1        5       8         4

分类器将能够根据演出者等级预测课程F的等级。

你可能已经注意到我有意做了一个训练数据集,其中gradeF与gradeD高度相关。贝叶斯分类器将尝试以更复杂的方式学习它。