假设我有一个ACT考试成绩数据集。每个“观察”都是学生参加ACT的结果。 ACT有五个科目:阅读,英语,数学,科学和写作(加上综合成绩)。每个测试对象都有一个量表分数,一个国家百分位数排名和一个大学准备指标(Y
或N
)。
我的问题是(并且似乎一直是因为我处理了大量评估数据),哪种格式是“整齐的”?
subject
列,然后是每个值的scaleScore
,percentile
和readiness
列。我已经使用SQL + Excel已有一段时间了,但是我想扩展R中的EDA技能。任何帮助将不胜感激!重点是使用ggplot
进行后续可视化。我猜测答案可能只是“取决于”,出于不同的绘图目的,他们愿意使用gather
和spread
。
答案 0 :(得分:1)
列为学生,测试,主题,scaleScore,百分位数,准备情况。
学生和测试变量将识别每个观察结果。
主题是一个变量。阅读,英语,数学等是主题变量的值。这本质上是整齐的方法的心脏,这种方法趋于深入而不是广泛,并且很适合进行连接,分组,绘制等操作。
OR为使其更整洁,得分和scoreType是变量,并且它们各自的值也包括在内作为观察值。
无论哪种方式,在一张表中,学生和测试都将在多行上重复进行。但这可以说明整洁的观点。显然,就全局而言,规范化表是值得考虑的。