处理间隔不相等的两个时间序列

时间:2018-11-26 12:33:28

标签: r timestamp correlation temperature measurement

我目前正在处理具有不同时间步长的温度测量(如下图所示):

temperatures vs time

我想比较两个温度,并检查它们是否相互关联(皮尔森相关性)。但是为此,我需要在每列(temp1和temp2)中使用相同数量的值。为了进行相关性测试,我想创建一个新的数据框,其中仅包含同时生成的两个温度值(匹配值如下图所示)。

temperatures vs time, 2

作为输出,我想生成一个其中仅包含匹配列“ time”,“ temp1”和“ temp2”的数据框。在这种情况下,将仅生成三个数据集,而不是总共八行。

wished output file

您是否知道如何实现?

我对R相当陌生,并且已经在寻找解决方案,但到目前为止没有成功。预先感谢您的建议。

2 个答案:

答案 0 :(得分:2)

OCR图像很好,但是阅读有关如何使用dput()的信息,以使人们更轻松地为您提供帮助。

ALSO:您问题中的图片1与图片2的区别不仅在于色彩。您修改了图像之间的时间,这与R或R知识无关,而且确实无益/令人困惑。因此,重申了建议只使用dput的输出到代码块中。

0个外部依赖库R解决方案:

read.csv(text="temp1,time1,temp2,time2
21.875,01.11.18 01:54,22.500,01.11.18 01:40
21.875,01.11.18 01:57,22.563,01.11.18 01:41
21.813,01.11.18 01:58,22.563,01.11.18 01:51
21.875,01.11.18 01:59,22.625,01.11.18 01:52
21.875,01.11.18 02:03,22.563,01.11.18 01:53
21.813,01.11.18 02:04,22.625,01.11.18 01:54
21.875,01.11.18 02:05,22.625,01.11.18 02:05
21.813,01.11.18 02:06,22.688,01.11.18 02:06",
         stringsAsFactors=FALSE) -> xdf

xdf$time1 <- as.POSIXct(xdf$time1, format="%m.%d.%y %H:%M")
xdf$time2 <- as.POSIXct(xdf$time2, format="%m.%d.%y %H:%M")

setNames(
  merge(xdf[,1:2], xdf[,3:4], by.x="time1", by.y="time2"),
  c("time", "temp1", "temp2")
)
##                  time  temp1  temp2
## 1 2018-01-11 01:54:00 21.875 22.625
## 2 2018-01-11 02:05:00 21.875 22.625
## 3 2018-01-11 02:06:00 21.813 22.688

57个编译的依赖项tidyverse解决方案:

  read.csv(text="temp1,time1,temp2,time2
  21.875,01.11.18 01:54,22.500,01.11.18 01:40
  21.875,01.11.18 01:57,22.563,01.11.18 01:41
  21.813,01.11.18 01:58,22.563,01.11.18 01:51
  21.875,01.11.18 01:59,22.625,01.11.18 01:52
  21.875,01.11.18 02:03,22.563,01.11.18 01:53
  21.813,01.11.18 02:04,22.625,01.11.18 01:54
  21.875,01.11.18 02:05,22.625,01.11.18 02:05
  21.813,01.11.18 02:06,22.688,01.11.18 02:06",
           stringsAsFactors=FALSE) -> xdf

  library(tidyverse)

  mutate(xdf, time1 = lubridate::mdy_hm(time1)) %>%
    mutate(time2 = lubridate::mdy_hm(time2)) -> xdf

  left_join(
    select(xdf, temp1, time1),
    select(xdf, temp2, time2),
    by = c("time1" = "time2")
  ) %>%
    filter(!is.na(temp2)) %>%
    select(time = time1, temp1, temp2)
  ##                  time  temp1  temp2
  ## 1 2018-01-11 01:54:00 21.875 22.625
  ## 2 2018-01-11 02:05:00 21.875 22.625
  ## 3 2018-01-11 02:06:00 21.813 22.688

答案 1 :(得分:0)

因此,我假设您将使用VLOOKUP在Microsoft Excel中进行构建。在R中,它的工作方式不同,我们按时间(time1time2)合并两个表以获得一个列。

首先,让我们创建看起来像您的数据。

T <- seq.POSIXt(Sys.time() - 3600, Sys.time(), by = "min")

temp1 <- data.frame(
    time1 = sample(T, 32),
    temp1 = runif(32, -20, 60)
)

temp2 <- data.frame(
    time2 = sample(T, 32),
    temp2 = runif(32, -20, 60)
)

head(temp1)

在这里,我将使用包dplyrdata.frame(表)合并在一起。如果您尚未安装此软件包,请执行以下操作:install.packages("dplyr")

# load the package after install
library(dplyr)

# merge
merged <- inner_join(temp1, temp2, by = c("time1" = "time2"))

# correlate
cor(merged$temp1, merged$temp2, method = "pearson")

上面我使用inner_join来仅返回匹配的行,您会详细了解与?join的联接。