哪种格式更整洁?

时间:2018-06-26 00:08:12

标签: r ggplot2 tidyr

假设我有一个ACT考试成绩数据集。每个“观察”都是学生参加ACT的结果。 ACT有五个科目:阅读,英语,数学,科学和写作(加上综合成绩)。每个测试对象都有一个量表分数,一个国家百分位数排名和一个大学准备指标(YN)。

我的问题是(并且似乎一直是因为我处理了大量评估数据),哪种格式是“整齐的”?

  • 其中每一行都是一个独特的学生考试+科目组合,其中包含subject列,然后是每个值的scaleScorepercentilereadiness列。
  • 每一行都是唯一的学生测验,所有科目及其各自的值在单独的列中列出。
  • 或者在我有第一个选项的地方,但是将六个主题放在一个表中,每个主题都有一个键?

我已经使用SQL + Excel已有一段时间了,但是我想扩展R中的EDA技能。任何帮助将不胜感激!重点是使用ggplot进行后续可视化。我猜测答案可能只是“取决于”,出于不同的绘图目的,他们愿意使用gatherspread

1 个答案:

答案 0 :(得分:1)

列为学生,测试,主题,scaleScore,百分位数,准备情况。

学生和测试变量将识别每个观察结果。

主题是一个变量。阅读,英语,数学等是主题变量的。这本质上是整齐的方法的心脏,这种方法趋于深入而不是广泛,并且很适合进行连接,分组,绘制等操作。

OR为使其更整洁,得分和scoreType是变量,并且它们各自的值也包括在内作为观察值。

无论哪种方式,在一张表中,学生和测试都将在多行上重复进行。但这可以说明整洁的观点。显然,就全局而言,规范化表是值得考虑的。