我有一个数据框,其中包含有关潮汐的以下信息。我正在尝试编写一个需要四个参数的函数(low.max,hi.max,hi.earliest,hi.latest)。例如,向我展示低2英尺或更低的所有日子,hi是6英尺或更低,hi发生在上午10点到下午4点之间。现在我正在遍历行来执行此操作(类似于hi.max - low.max使用它),但我是R的新手,并假设有更像R的方法。
date day time ft cm H/L
2013/01/01 Tue 07:03 AM 8.1 247 H
2013/01/01 Tue 12:49 PM 5.1 155 L
2013/01/01 Tue 05:30 PM 5.7 174 H
2013/01/02 Wed 12:03 AM 0.5 15 L
2013/01/02 Wed 07:33 AM 8.1 247 H
2013/01/02 Wed 01:40 PM 4.4 134 L
2013/01/02 Wed 06:32 PM 5.3 162 H
2013/01/03 Thu 12:42 AM 1.4 43 L
2013/01/03 Thu 08:03 AM 8.1 247 H
2013/01/03 Thu 02:33 PM 3.5 107 L
2013/01/03 Thu 07:46 PM 4.9 149 H
添加dput输出:
structure(list(Date = structure(c(15706, 15706, 15706, 15707,
15707, 15707, 15707, 15708, 15708, 15708), class = "Date"), Day = c("Tue",
"Tue", "Tue", "Wed", "Wed", "Wed", "Wed", "Thu", "Thu", "Thu"
), Time = c("7:03 AM", "12:49 PM", "5:30 PM", "12:03 AM", "7:33 AM",
"1:40 PM", "6:32 PM", "12:42 AM", "8:03 AM", "2:33 PM"), Pred.Ft. = c(8.1,
5.1, 5.7, 0.5, 8.1, 4.4, 5.3, 1.4, 8.1, 3.5), Pred.cm. = c(247L,
155L, 174L, 15L, 247L, 134L, 162L, 43L, 247L, 107L), High_Low = c("H",
"L", "H", "L", "H", "L", "H", "L", "H", "L")), .Names = c("Date",
"Day", "Time", "Pred.Ft.", "Pred.cm.", "High_Low"), row.names = c(NA,
10L), class = "data.frame")
到目前为止,我为hi / lo部分尝试了什么,与时间无关:
tides <- read.csv("TideData.csv", stringsAsFactors = FALSE)
for (i in 1: nrow(tides)){
if (tides[i, 6] == "L" & tides[i, 4] <= low.max
& tides[i+1, 6] == "H" & tides[i+1, 4] <= hi.max){
#deal with last iteration being out of bounds / write out to a df
}
答案 0 :(得分:2)
子集数据是R中的一个非常基本的操作,并且已经很好地描述,例如在R手册An Introduction to R中。
假设您的数据名为x
,请使用子集运算符[
指定要保留的行:
x[x$Pred.Ft < 2, ]
Date Day Time Pred.Ft. Pred.cm. High_Low
4 2013-01-02 Wed 12:03 AM 0.5 15 L
8 2013-01-03 Thu 12:42 AM 1.4 43 L
仅限高潮:
x[x$Pred.Ft > 6, ]
Date Day Time Pred.Ft. Pred.cm. High_Low
1 2013-01-01 Tue 7:03 AM 8.1 247 H
5 2013-01-02 Wed 7:33 AM 8.1 247 H
9 2013-01-03 Thu 8:03 AM 8.1 247 H
要合并逻辑语句,请|
使用OR
,&
使用AND
。因此,只需一步即可获得低潮和高潮:
x[x$Pred.Ft > 6 | x$Pred.Ft < 2, ]
Date Day Time Pred.Ft. Pred.cm. High_Low
1 2013-01-01 Tue 7:03 AM 8.1 247 H
4 2013-01-02 Wed 12:03 AM 0.5 15 L
5 2013-01-02 Wed 7:33 AM 8.1 247 H
8 2013-01-03 Thu 12:42 AM 1.4 43 L
9 2013-01-03 Thu 8:03 AM 8.1 247 H
要在春潮中获得高潮,试试这个。由于您知道每个低值后跟一个高值,您可以使用diff
计算潮位差异,然后仅返回差异高于阈值的行:
x$Tidediff <- c(NA, diff(x$Pred.Ft))
na.omit(x[x$Tidediff > 6, ])
Date Day Time Pred.Ft. Pred.cm. High_Low Tidediff
5 2013-01-02 Wed 7:33 AM 8.1 247 H 7.6
9 2013-01-03 Thu 8:03 AM 8.1 247 H 6.7
答案 1 :(得分:1)
使用by
函数处理具有相同日期值的记录:
L.lt.2 <- by(tides, tides$Date, FUN= function(d) d[
d$High_Low=="L" & d$Pred.Ft <= 2, "Date",drop=FALSE])
H.lt.6.b.4 <- by(tides, tides$Date, FUN= function(d) d[
d$High_Low=="H" & d$Pred.Ft <= 6 &
as.POSIXct(d$Time, format="%H:%M %p") <=
as.POSIXct("4:00 PM", format="%H:%M %p"),
"Date", drop=FALSE])
intersect(L.lt.2, H.lt.6.b.4)
#[[1]]
#character(0)
由于没有构建数据来支持条件测试,所以没有费心加入额外的时间要求。作为“练习”离开,因为它只涉及向[i, ...]
- 选择操作添加额外的逻辑向量。 (最好构建一个至少有一个日期满足目标的例子。)