我对编码比较陌生 - 我一直在努力教自己R作为一种爱好,我已经想到了这个问题。事实上,我刚创建了一个帐户来问这个问题! (我也是老师,这就是我编写这个例子的原因......)
数据:
Test 6 Test 5 Test 4 Test 3 Test 2 Test 1 Pre-test Attendance
Student 1 81 82 81 82 83 9 1
Student 2 84 80 82 80 85 10 0
Student 3 63 71 70 75 84 7 1
Student 4 77 82 67 NA NA 6 1
Student 5 70 73 73 61 78 8 1
Student 6 87 89 85 85 88 5 1
Student 7 72 68 79 60 74 8 0
Student 8 77 79 71 73 NA 7 1
Student 9 73 66 70 70 85 10 1
Student 10 60 62 65 67 61 9 1
任务:
我想使用这些数据来预测测试6分数。嗯,这相对容易。相反,我想计算每个学生在考试6中获得最高分的概率。因此,根据这些数据,学生1在测试6中得分最高的概率是多少?学生2?等...
我不知道R中的哪个函数会为我做这个。有什么想法吗?
谢谢!
P.S。是否可以这样做和为每个学生使用不同数量的预测变量? (注意我在数据中的NA。)这将是理想的。或者,我是否首先需要清除NA以便每个人都有7个预测变量?
答案 0 :(得分:0)
这里有两个不同的问题。 (1)对于每个学生,计算他们在下一次测试中的分数的概率分布,给出他们之前测试的可用分数。对于这一部分,它们都必须具有相同测试的分数。 (2)考虑到第一步的概率分布,对于每个学生,计算他们得分高于任何其他学生的概率。我想要小心你必须考虑到关系,但也许你现在可以忽略它。
对于(1),您可以应用任何许多回归模型。您需要将输出表示为概率分布;最简单的是假设高斯误差并使用残差(遗留,未计算)方差。可能有许多更复杂的方法。
对于(2),这是一个相当简单的概率计算。您要查找的主题称为"订单统计"。
您可能会对stats.stackexchange.com上的这个问题感兴趣。