我一直在做一些日志记录,试图向Comcast Business说明他们在我办公室中断服务的频率。我正在将ping响应时间记录到文件,然后使用R解析该文件。在日志文件中,值1000表示ping超时。我的脚本每5秒记录一次ping。因此,如果我的Comcast服务停机30秒,将导致约6个日志条目的值为1000.我想以这样的方式解析我的日志,即我可以创建一个汇总表,显示每次中断何时开始,以及它持续了多长时间。有什么好方法可以做到这一点?
以下是今天的一些示例数据和一些说明我的时间序列的图表:
require(xts)
outFile <- "http://pastebin.com/raw.php?i=SJuMQ9rD"
pingLog <- read.csv(outFile, header=FALSE,
col.names = c("time","ms"),
colClasses=c("POSIXct", "numeric"))
xPingLog <- as.xts(pingLog$ms, order.by=pingLog$time)
outages <- subset(pingLog, ms==1000)
xOutages <- as.xts(outages$ms, order.by=outages$time)
par(mfrow=c(2,1))
plot(xPingLog)
plot(outages)
outages
答案 0 :(得分:12)
你必须喜欢游程编码,别名rle
:
offline <- ifelse(pingLog$ms==1000, TRUE, FALSE)
rleOffline <- rle(offline)
offlineTable <- data.frame(
endtime = pingLog$time[cumsum(rleOffline$lengths)],
duration = rleOffline$lengths * 5,
offline = rleOffline$values
)
结果:
offlineTable
endtime duration offline
1 2011-11-20 13:20:19 1030 FALSE
2 2011-11-20 13:20:35 5 TRUE
3 2011-11-20 13:24:37 240 FALSE
4 2011-11-20 13:25:57 25 TRUE
5 2011-11-20 13:53:28 1640 FALSE
首先构建一个指示在线与离线的逻辑向量。 ifelse
对此非常方便。
offline <- ifelse(pingLog$ms==1000, TRUE, FALSE)
然后使用rle
计算游程长度编码:
rle(offline)
Run Length Encoding
lengths: int [1:5] 206 1 48 5 328
values : logi [1:5] FALSE TRUE FALSE TRUE FALSE
此表说明了TRUE或FALSE的运行次数以及每次运行的持续时间。在这种情况下,第一次运行是206个周期,值为FALSE(即在线为206 * 5 = 1030秒。
最后一步是使用rle
信息对原始pingLog
进行索引以查找时间。额外的魔力是使用cumsum
来计算游程长度的累积总和。这个实际意义是每个运行终止的索引位置。