从重复的IDS中选择随机行

时间:2016-07-21 18:32:53

标签: r

我正在处理一个数据集,我有学生对教师的评分。有些学生不止一次对同一位老师进行评分。 我想对数据做的是使用以下标准对其进行子集化:

1)保留任何独特的学生ID和评分

2)如果学生对教师两次评分只保留1个评分,但要选择随机保留的评分。

3)如果可能的话,我希望能够在每个分析文件顶部的一个munging脚本中运行代码,并确保为每个分析创建的数据集是相同的(设置种子?)。

select part_date  from table_A where part_date > second_last_partition(ie 04-12-2016);

感谢您提供有关如何前进的任何指导。

1 个答案:

答案 0 :(得分:1)

假设每个student.id仅适用于一位教师,您可以使用以下方法。

# get a list containing data.frames for each student
myList <- split(df, df$student.id)

# take a sample of each data.frame if more than one observation or the single observation
# bind the result together into a data.frame
set.seed(1234)
do.call(rbind, lapply(myList, function(x) if(nrow(x) > 1) x[sample(nrow(x), 1), ] else x))

返回

  student.id teacher.id rating
1          1          1    100
2          2          1     89
3          3          1     99
4          4          2     87
5          5          2     24
6          6          2     52
7          7          2     99
8          8          2     79
9          9          2     12

如果同一个student.id对多位教师进行评分,则此方法需要使用interaction函数构建新变量:

# create new interaction variable
df$stud.teach <- interaction(df$student.id, df$teacher.id)

myList <- split(df, df$stud.teach)

然后代码的其余部分与上面的相同。

可能更快的方法是使用data.table库和rbindlist

library(data.table)
# convert into a data.table
setDT(df)

myList <- split(df, df$stud.teach)

# put together data.frame with rbindlist
rbindlist(lapply(myList, function(x) if(nrow(x) > 1) x[sample(nrow(x), 1), ] else x))