如何描述价值分布?

时间:2017-04-14 09:19:53

标签: statistics distribution data-analysis

我尝试用一​​个例子来解释它。

在学校里有n个班级。在每个classe有k个学生,k从1到700,n和k都是已知的。

我需要一种方法来为每个班级描述学生姓名的分布。例如,在A班有10名学生,3名叫“John”,3名叫“Mark”,3名叫“Anne”。在另一个班级,有100名学生,每个人都被命名为“安东”。

我需要一个能够指示每个班级名称分布的措施。例如,(它并不重要),如果一个类中的每个人都具有相同的名称,则它可以是1,如果同一个类中没有2个相同的名称,则可以是0。

换句话说,这是一种通过名称分布对类进行排序的方法。

1 个答案:

答案 0 :(得分:1)

听起来你想要一个" contingency table"。您希望将哪些变量作为行与列进行任意对齐,但表条目可以是在类别交集中出现的次数的计数或比例。

用你给出的例子:

                     Class
                  A        B
              _________________
       Anne  |    3   |    0   |   3
Names  Anton |    0   |  100   | 100
       John  |    3   |    0   |   3
       Mark  |    3   |    0   |   3
    Unknown  |    1   |    0   |   1
             |--------|--------|----
                 10      100   | 110

右边和底部的值称为"边际总数",或者如果是比例,"边际分布"。右下角是数据的总计,通过对行或列边距求和得到。 (它们最好相同!)对于比例,总和必须为1.