这是一个典型的数据框:
df <- data.frame(
'ID' = c("123A","456B","789C","1011","1213")
, 'Name' = c("Alice","Bobo","Jack","Jill","Zoro")
, 'Quizzes' = c(13,8,14,NA,15)
, 'Midterm' = c(13,4,16,7,12)
, 'Final' = c(15,9,13,6,13)
)
df
ID Name Quizzes Midterm Final
1 123A Alice 13 13 15
2 456B Bobo 8 4 9
3 789C Jack 14 16 13
4 1011 Jill NA 7 6
5 1213 Zoro 15 12 13
我想添加数字列(不包括'ID'
和'Name'
)来计算'Grade'
列。然后我想计算每个数字列的均值,中位数,最大值,最小值和标准差。最后,我想将统计数据合并到原始数据框中。
一个问题是此名称中的合域名(ID
,Name
,Quizzes
,Midterm
,Final
)未知。列数也是未知的,它可能有2个标识列(本例中为ID
,Name
)或更多,可能有3个等级组件(Quizzes
,Midterm
,在此示例中为Final
或更多。
但是,我知道第一列始终包含唯一标识符。
可能缺少数据和/或NA数据。
按列添加(水平添加)时,我想假设缺失的和NAs被视为零。当按行添加(或计算任何其他统计数据)(垂直添加)时,我想忽略缺失值和NA值(将它们视为异常值)。
我的困难分为两类:1)处理NA和缺失值,2)当字母未知时合并数据帧。
df$Means = rowMeans(df[sapply(df, is.numeric)])
df
ID Name Quizzes Midterm Final Means
1 123A Alice 13 13 15 13.66667
2 456B Bobo 8 4 9 7.00000
3 789C Jack 14 16 13 14.33333
4 1011 Jill NA 7 6 NA
5 1213 Zoro 15 12 13 13.33333
我知道如何删除NAs:
df$Means = rowMeans(df[sapply(df, is.numeric)], na.rm = TRUE)
df
ID Name Quizzes Midterm Final Means
1 123A Alice 13 13 15 13.66667
2 456B Bobo 8 4 9 7.00000
3 789C Jack 14 16 13 14.33333
4 1011 Jill NA 7 6 6.50000
5 1213 Zoro 15 12 13 13.33333
但我想把它们视为零。
第一个问题:是否有单行将NAs视为零(0)而不交换数据帧?
编辑1:让我澄清一下,我知道如何在数据框中用df[is.na(df)] <-0
替换为0的NA,但我希望保持原始数据框的数据不变,保持不变NAs,而计算意味着NAs被视为零。
一点解释:sapply(df, is.numeric)
旨在忽略前两列,我的副本名称不知道。
我还想将统计数据合并到原始数据框中,以方便显示和导出到工作表。我有一部分,但不是很远。我尝试调整此处描述的解决方案Add new row to dataframe, at specific row-index, not appended?
# create a dataframe of sums
data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
ID Quizzes Midterm Final
1 Mean 12.5 10.4 11.2
# add sums to original data frame
newRow <- data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
insertRow <- function(df, r, p) {
# df = data frame
# r = new row
# p = position
df[seq(p+1,nrow(df)+1),] <- df[seq(p,nrow(df)),]
df[p,] <- r
df
}
insertRow(df[,-1],newRow,nrow(df)+1)
Name Quizzes Midterm Final
1 Alice 13.0 13.0 15.0
2 Bobo 8.0 4.0 9.0
3 Jack 14.0 16.0 13.0
4 Jill NA 7.0 6.0
5 Zoro 15.0 12.0 13.0
NA <NA> 12.5 10.4 11.2
7 <NA> NA NA NA
Warning message:
In `[<-.factor`(`*tmp*`, iseq, value = 1L) :
invalid factor level, NA generated
第二个问题:如何有效地将我的垂直总和(以及平均值和中位数等)合并回原始数据框?回想一下,我不知道colnames,我只知道第一列是唯一的标识符。 修改:解决方案如下所述。
编辑2:我避免使用rbind,因为我正在寻找高效解决方案。网址Add new row to dataframe, at specific row-index, not appended?表示“这是一种避免(通常很慢)rbind调用的解决方案。”我不知道为什么rbind可能会很慢,但我按照建议尝试实现解决方案来解决我目前的问题。
谢谢!如果需要,请务必要求澄清。
编辑3:
我上面引用的帖子Add new row to dataframe, at specific row-index, not appended?实际上有一个“有效”的解决问题的方法,避免了上面使用insertRow函数描述的奇怪行为(我必须补充一点,奇怪的行为很可能是结果我误用了这个功能)。这是一个有效的功能,并解决了我的第二个问题:
insertRow2 <- function(df, r, p) {
df <- rbind(df,r)
df <- df[order(c(1:(nrow(df)-1),p-0.5)),]
row.names(df) <- 1:nrow(df)
return(df)
}
insertRow2(df[,-1],newRow,nrow(df)+1)
Name Quizzes Midterm Final
1 Alice 13.0 13.0 15.0
2 Bobo 8.0 4.0 9.0
3 Jack 14.0 16.0 13.0
4 Jill NA 7.0 6.0
5 Zoro 15.0 12.0 13.0
6 Mean 12.5 10.4 11.2
至于我的第一个问题,由于没有一个单行班,我创建了这样的自定义函数:
colMeanz <- function(df) {
df[is.na(df)] <- 0
return(colMeans(df))
}
相当不优雅,但你去了。感谢Llopis提供的帮助。
对上下文的额外解释:在计算一个学生的平均值时,将NA视为零是有意义的,而在计算整个类的均值时,使用'na.rm = TRUE'来处理NA是有意义的。
答案 0 :(得分:1)
假设没有名字,我已经这样做来测试它
names(df)<- NULL
第一个问题:要将数据的de NA值更改为0,您可以执行df [is.na(df)]&lt; -0(有更多解决方案,但这可能会做,只是在这里搜索stackflow)
df[is.na(df)] <- 0
# NA NA NA NA NA
#1 123A Alice 13 13 15
#2 456B Bobo 8 4 9
#3 789C Jack 14 16 13
#4 1011 Jill 0 7 6
#5 1213 Zoro 15 12 13
第二个问题:您可以cbind
将新数据加入到最后一列,cbind
加入df末尾的新行。作为示例,该数据接近平均值。我不确定你需要处理rbind
函数使用的时间,如果它只有不到100行,那就非常好了。
vector <- c(14, 7, 14, 4, 13)
df <- cbind(df, vector)
# 1 2 3 4 5 vector #Note that the name is the name of the vector
#1 123A Alice 13 13 15 14
#2 456B Bobo 8 4 9 7
#3 789C Jack 14 16 13 14
#4 1011 Jill 0 7 6 4
#5 1213 Zoro 15 12 13 13
要更改名称,您可以{name {1}}作为名称。您想要获得的名称向量。为了做到这一点,中间人就是这样,你可以使用一个应用函数,但我不太了解你如何...