什么是等效的pandas .resample()方法?

时间:2015-07-24 17:56:02

标签: python r pandas

这是我找到的最近的链接:https://stats.stackexchange.com/questions/5305/how-to-re-sample-an-xts-time-series-in-r

但是我没有看到任何关于聚合数据的方法(比如卑鄙,计数,匿名函数),你可以在pandas中做。

对于我的程序,我试图每2分钟重新采样一次数据帧,并取每个间隔的2个值的平均值。谢谢!

3 个答案:

答案 0 :(得分:2)

如果您使用data.tablelubridate,则可能看起来像这样

library(data.table)
library(lubridate)
#sample data
dt<-data.table(ts=seq(from=ymd('2015-01-01'), to=ymd('2015-07-01'),by='mins'), datum=runif(260641,0,100))

如果你想从一分钟到一小时获得数据意味着你可以做到

 dt[,mean(datum),by=floor_date(ts,"hour")]

如果您有一堆列,并且您希望所有这些列都是平均值,那么

dt[,lapply(.SD,mean),by=floor_date(ts,"hour")]

您可以将mean替换为您想要的任何功能。您可以将“小时”替换为“秒”,“分钟”,“小时”,“日期”,“周”,“月”,“年”。好吧,你不能从一分钟到几分钟,因为这需要魔法,但无论如何你都可以从微秒到秒。

  

无法将系列从较低的周期转换为a   更高的周期性 - 例如每周到每天或每天到5分钟的酒吧,   因为这需要魔法。

-Jeffrey Ryan来自xts手册。

我从来没有学过xts所以我不知道使用xts对象的语法,但这条线很有名(或者至少与手册中的一行一样出名)

答案 1 :(得分:0)

你看过R COIN套餐了吗?这是一个教程,可以帮助您确定这是否是您正在寻找的:http://www.statmethods.net/stats/resampling.html

有关该软件包的更多信息,请访问:https://cran.r-project.org/web/packages/coin/coin.pdf

答案 2 :(得分:0)

您可以使用网状结构来利用熊猫方法

require(reticulate)
pd <- import("pandas")

df <- r_to_py(df) #Transform to Pandas DataFrame
df = df$set_index(pd$DatetimeIndex(df['Date']))
#df_meidan_hours=df$resample('1H', how='median', closed='left', label='left')
df_meidan_hours=df$resample('1H',closed='left', label='left')$agg('median')
df_meidan_hours <- py_to_r(df_meidan_hours) #Transform back to r's data.frame