我的Excel数据文件格式为:
day value
01-01-2000 00:00:00 4
01-01-2000 00:01:00 3
01-01-2000 00:02:00 1
01-01-2000 00:04:00 1
我打开我的文件:
ts = read.csv(file=pathfile, header=TRUE, sep=",")
如何在数据框中将“value”列中带有零数字的其他行添加到数据框中。输出示例:
day value
01-01-2000 00:00:00 4
01-01-2000 00:01:00 3
01-01-2000 00:02:00 1
01-01-2000 00:03:00 0
01-01-2000 00:04:00 1
答案 0 :(得分:6)
现在padr
包中已完全自动化了。只需要一行代码。
original <- data.frame(
day = as.POSIXct(c("01-01-2000 00:00:00",
"01-01-2000 00:01:00",
"01-01-2000 00:02:00",
"01-01-2000 00:04:00"), format="%m-%d-%Y %H:%M:%S"),
value = c(4, 3, 1, 1))
library(padr)
library(dplyr) # for the pipe operator
original %>% pad %>% fill_by_value(value)
请参阅vignette("padr")
或this博客文章了解其工作情况。
答案 1 :(得分:3)
我认为这是一个更通用的解决方案,它依赖于创建所有时间戳的序列,使用它作为新数据框的基础,然后在适用的df中填入原始值。
# convert original `day` to POSIX
ts$day <- as.POSIXct(ts$day, format="%m-%d-%Y %H:%M:%S", tz="GMT")
# generate a sequence of all minutes in a day
minAsNumeric <- 946684860 + seq(0,60*60*24,by=60) # all minutes of your first day
minAsPOSIX <- as.POSIXct(minAsNumeric, origin="1970-01-01", tz="GMT") # convert those minutes to POSIX
# build complete dataframe
newdata <- as.data.frame(minAsPOSIX)
newdata$value <- ts$value[pmatch(newdata$minAsPOSIX, ts$day)] # fill in original `value`s where present
newdata$value[is.na(newdata$value)] <- 0 # replace NAs with 0
答案 2 :(得分:1)
尝试:
ts = read.csv(file=pathfile, header=TRUE, sep=",", stringsAsFactors=F)
ts.tmp = rbind(ts,list("01-01-2000 00:03:00",0))
ts.out = ts.tmp[order(ts.tmp$day),]
请注意,您需要强制加载第一列中的字符串作为字符而不是因素,否则您将遇到rbind问题。要使日期列成为一个因素而不仅仅是:
ts.out$day = as.factor(ts.out$day)