我尝试用一个例子来解释它。
在学校里有n个班级。在每个classe有k个学生,k从1到700,n和k都是已知的。
我需要一种方法来为每个班级描述学生姓名的分布。例如,在A班有10名学生,3名叫“John”,3名叫“Mark”,3名叫“Anne”。在另一个班级,有100名学生,每个人都被命名为“安东”。
我需要一个能够指示每个班级名称分布的措施。例如,(它并不重要),如果一个类中的每个人都具有相同的名称,则它可以是1,如果同一个类中没有2个相同的名称,则可以是0。
换句话说,这是一种通过名称分布对类进行排序的方法。
答案 0 :(得分:1)
听起来你想要一个" contingency table"。您希望将哪些变量作为行与列进行任意对齐,但表条目可以是在类别交集中出现的次数的计数或比例。
用你给出的例子:
Class
A B
_________________
Anne | 3 | 0 | 3
Names Anton | 0 | 100 | 100
John | 3 | 0 | 3
Mark | 3 | 0 | 3
Unknown | 1 | 0 | 1
|--------|--------|----
10 100 | 110
右边和底部的值称为"边际总数",或者如果是比例,"边际分布"。右下角是数据的总计,通过对行或列边距求和得到。 (它们最好相同!)对于比例,总和必须为1.