确定"难度"有多个权重的测验?

时间:2016-08-19 15:01:14

标签: algorithm math scoring

我试图确定"困难"测验对象。

我的最终目标是能够为任何测验创建"难度分数" (DS)。这将允许我准确地比较一个测验与另一个测验,尽管由不同的问题/答案组成。

创建我的测验对象时,我会为每个问题分配一个"难度指数" (DI),这个数字的范围是1-15。

15 =最困难的 1 =最不困难

现在衡量这个"难度得分" 的正确方法可能是将每个问题的难度指数加起来"然后除以最大可能"难度指数"为测验。 (例如16/30 = 53.3%难度)

但是,我还有多个"加权" 属性与每个问题相关联。这些权重也是1-5的等级。

5 =影响最大 1 =影响最小

我有(2)而不是更常见的(1)的原因是我可以适应如下情况...

如果向学生提出一个非常困难的问题(DI = 15)并且学生回答"不正确",如果他们得到它并且不会伤害他们的分数,那么#34> ;正确"让它大大提高他们的分数。我将这些称为"肯定" (PW)和"否定" (NW)权重。

测验示例A:
问题1:DI = 1 | PW = 3 | NW = 3
问题2:DI = 1 | PW = 3 | NW = 3
问题3:DI = 1 | PW = 3 | NW = 3
问题4:DI = 15 | PW = 5 | NW = 1

测验示例B:
问题1:DI = 1 | PW = 3 | NW = 3
问题2:DI = 1 | PW = 3 | NW = 3
问题3:DI = 1 | PW = 3 | NW = 3
问题4:DI = 15 | PW = 1 | NW = 5

从技术上讲,上述两个测验非常相似但是测验B应该更多"困难"因为如果你弄错了,最困难的问题会对你的分数产生最大的影响。

我现在的问题是如何准确地确定"难度得分"在考虑复杂的加权系统时?

非常感谢任何帮助!

2 个答案:

答案 0 :(得分:4)

当然,挑战是确定每个问题的难度分数。

我建议使用以下型号:

  • 硬度(H):定义一个难以回答正确答案的机会。最难的问题是:(1)正确回答它的机会等于随机选择(因为它本质上非常困难),(2)它具有最大数量的可能答案。我们将这样的问题定义为(H = 15)。在比例的另一端,我们将定义(H = 0)一个问题,其中正确回答它的机会是100%(因为它是微不足道的)(我知道 - 这样的问题永远不会出现)。现在 - 通过主观推断来定义每个问题的硬度(记住,总是可以在给定的选项之间猜测)。例如,如果(H = 15)问题有4个答案,而另一个具有相似固有硬度的问题有2个答案 - 那么(H = 7.5)。另一个例子:如果你认为普通学生有62.5%正确回答问题 - 这也是一个(H = 7.5)问题(这是因为H = 15有25%的正确答案,而H = 0有100%。平均值为62.5%)

  • 效果(E):现在,我们将测量PW和NW的效果。对于有50%正确回答的问题 - 效果是E = 0.5 * PW - 0.5 * NW。对于有25%的机会正确回答的问题 - 效果是E = 0.25 * PW - 0.75 * NW。对于琐碎的问题,NW无关紧要,因此效果为E = PW。

  • 难度(DI):最后一步是整合硬度和效果 - 并称之为难度。我建议 DI = H - c * E ,其中c是一些正常数。您可能想要再次标准化。

    编辑或者,您可以尝试以下公式: DI = H *(1 - c * E),其中效果幅度不是绝对的,而是相对的问题的硬度。

<强>澄清:

教师只需要估算每个问题的一个参数:普通学生正确回答这个问题的概率是多少。他的估计 e 将是在[1 / k,1]范围内,其中 k 是答案的数量。

硬度 H 是e的线性函数,1 / k映射到15,1映射到0.函数是: H = 15 * k / (k-1)*(1-e)

效果 E 取决于e,PW和NW。公式为 E = e * PW - (1-e)* NW

基于OP评论的示例:

问题1:

k = 4,e = 0.25(最难)。因此H = 15

PW = 1,NW = 5,e = 0.25。因此,E = 0.25 * 1-0.75 * 5 = -3.5

c = 5. DI = 15-5 *( - 3.5)= 32.5

问题2:

k = 4,e = 0.95(非常容易)。因此H = 1

PW = 1,NW = 5,e = 0.95。因此,E = 0.95 * 1 - 0.05 * 5 = 0.7

c = 5. DI = 1 - 5 *(0.7)= -2.5

答案 1 :(得分:1)

我说问题的核心是数学上你的例子测验A和B是相同的,除了测验A奖励学生4个无偿奖励积分(或者,相当于,测验B任意距离他们4分)。如果相同的学生同时使用它们,则分数分布将相同,除了移动4分。因此,虽然这两个测验可能在心理上感觉不同(因为,让我们面对它,获得额外的积分感觉很好,失去积分感觉很糟糕,即使你在技术上没有做任何值得的事情),找到一个客观的方式区分它们似乎很棘手。

也就是说,“心理难度”的一个合理衡量标准可能只是随机选择的学生从测验中获得的平均分数(每个问题)。当然,这不是你可以提前可靠计算的东西,尽管你可以根据事实后的实际测验结果来估计它。

但是,如果你能以某种方式将你的(可能是任意的)难度等级与可能正确回答问题的学生的比例联系起来,那么你可以用它来估计预期的平均分数。因此,例如,我们可以简单地假设与问题难度的线性关系为成功率,难度1对应于100%预期成功率,难度15对应于0%预期成功率。然后,测验的每个问题的预期平均得分S可以计算为:

  • S = avg(PW×X-NW×(1-X))

其中平均值取自测验中的所有问题,其中PW和NW分别是正确答案和错误答案的分数权重,下面的DI是问题的难度等级,X =(15 - DI )/ 14是估计的成功率。

当然,我们可能还想说明这样一个事实:即使学生不知道问题的答案,他们仍然可以猜测。基本上这意味着估计的成功率X的范围不应该是0到1,而是从1 / N到1,其中N是问题的选项数。因此,考虑到这一点,我们可以将X的公式调整为:

  • X =(1 +(N-1)×(15-DI)/ 14)/ N

这个估计平均分S作为难度测量的一个问题是它不受任何方向限制,并且没有提供明显的比例来表明什么算作“简单”测验或“硬”测验。这里的根本问题是你没有为问题权重指定任何限制,因此从技术上讲,没有任何东西可以阻止某人提出一个问题,例如,一百万分的正或负的重量。

那就是说,如果你确实对权重施加了一些合理的限制(即使它们只是建议),那么你应该能够在S上建立合理的阈值,以便进行测验,例如:容易,温和或坚硬。即使你不这样做,你仍然可以至少使用它来通过难度对彼此的测验进行排名。

聚苯乙烯。在UI中呈现预期分数的一种方法可能是将其乘以测验中的问题数,并将结果显示为测验的“标准”。这样,学生可以通过观察他们的得分是高于还是低于标准来粗略地判断他们自己的表现与测验的难度。