通过Python中的大熊猫将每日库存数据转换为每周库存数据

时间:2016-01-04 18:56:44

标签: python pandas yahoo-finance

我有一个DataFrame存储基于每日的数据,如下所示:

Date              Open        High         Low       Close   Volume
2010-01-04   38.660000   39.299999   38.509998   39.279999  1293400   
2010-01-05   39.389999   39.520000   39.029999   39.430000  1261400   
2010-01-06   39.549999   40.700001   39.020000   40.250000  1879800   
2010-01-07   40.090000   40.349998   39.910000   40.090000   836400   
2010-01-08   40.139999   40.310001   39.720001   40.290001   654600   
2010-01-11   40.209999   40.520000   40.040001   40.290001   963600   
2010-01-12   40.160000   40.340000   39.279999   39.980000  1012800   
2010-01-13   39.930000   40.669998   39.709999   40.560001  1773400   
2010-01-14   40.490002   40.970001   40.189999   40.520000  1240600   
2010-01-15   40.570000   40.939999   40.099998   40.450001  1244200   

我打算将其合并到基于每周的数据中。分组后:

  1. 日期应该是每个星期一(此时,星期一不是交易日时应考虑假期情景,我们应该在当前周的第一个交易日作为日期)。< / LI>
  2. 打开应该是星期一(或当周的第一个交易日)开放。
  3. 关闭应该是周五(或当周的最后一个交易日)关闭。
  4. 应该是本周交易日的最高点。
  5. 应该是本周交易日的最低点。
  6. Volumn 应该是本周所有交易日数量的总和。
  7. 应该是这样的:

    Date              Open        High         Low       Close   Volume
    2010-01-04   38.660000   40.700001   38.509998   40.290001  5925600   
    2010-01-11   40.209999   40.970001   39.279999   40.450001  6234600   
    

    目前,我的代码片段如下所示,我应该使用哪个功能将基于每日的数据映射到预期的每周数据?非常感谢!

    import pandas_datareader.data as web
    
    start = datetime.datetime(2010, 1, 1)
    end = datetime.datetime(2016, 12, 31)
    f = web.DataReader("MNST", "yahoo", start, end, session=session)
    print f
    

4 个答案:

答案 0 :(得分:10)

通常,假设您拥有指定表单中的数据框,则需要执行以下步骤:

  1. Date放入索引
  2. resample索引。
  3. 您所拥有的是将不同功能应用于不同列的情况。 See

    您可以通过各种方式重新取样。例如你可以取值的平均值或数等等。检查pandas resample

    您还可以应用自定义聚合器(请查看相同的链接)。 考虑到这一点,您的案例的代码段可以表示为:

    f['Date'] = pd.to_datetime(f['Date'])
    f.set_index('Date', inplace=True)
    f.sort_index(inplace=True)
    
    def take_first(array_like):
        return array_like[0]
    
    def take_last(array_like):
        return array_like[-1]
    
    output = f.resample('W',                                 # Weekly resample
                        how={'Open': take_first, 
                             'High': 'max',
                             'Low': 'min',
                             'Close': take_last,
                             'Volume': 'sum'}, 
                        loffset=pd.offsets.timedelta(days=-6))  # to put the labels to Monday
    
    output = output[['Open', 'High', 'Low', 'Close', 'Volume']]
    

    此处,W表示每周重新采样,默认情况下从周一到周日。要将标签保留为星期一,请使用loffset。 有几个预定义的日期说明符。看看pandas offsets。您甚至可以定义自定义偏移量(see)。

    回到重新采样方法。对于OpenClose,您可以指定自定义方法来获取第一个值,然后将函数句柄传递给how参数。

    这个答案基于这样的假设:数据似乎是每天,即每天只有1个条目。此外,非营业日不存在任何数据。即周六和太阳。因此,将本周的最后一个数据点作为周五的数据点是可以的。如果您愿意,可以使用工作周而不是&#39; W&#39;。此外,对于更复杂的数据,您可能希望使用groupby对每周数据进行分组,然后处理其中的时间索引。

    btw解决方案的要点可以在以下位置找到: https://gist.github.com/prithwi/339f87bf9c3c37bb3188

答案 1 :(得分:7)

您可以resample(每周),offset(轮班)和apply汇总规则,如下所示:

logic = {'Open'  : 'first',
         'High'  : 'max',
         'Low'   : 'min',
         'Close' : 'last',
         'Volume': 'sum'}

offset = pd.offsets.timedelta(days=-6)

f = pd.read_clipboard(parse_dates=['Date'], index_col=['Date'])
f.resample('W', loffset=offset).apply(logic)

得到:

                 Open       High        Low      Close   Volume
Date                                                           
2010-01-04  38.660000  40.700001  38.509998  40.290001  5925600
2010-01-11  40.209999  40.970001  39.279999  40.450001  6234600

答案 2 :(得分:2)

我有完全相同的问题,在这里找到了一个很好的解决方案。

https://www.techtrekking.com/how-to-convert-daily-time-series-data-into-weekly-and-monthly-using-pandas-and-python/

每周代码发布在下面。

import pandas as pd
import numpy as np

print('*** Program Started ***')

df = pd.read_csv('15-06-2016-TO-14-06-2018HDFCBANKALLN.csv')

# ensuring only equity series is considered
df = df.loc[df['Series'] == 'EQ']

# Converting date to pandas datetime format
df['Date'] = pd.to_datetime(df['Date'])
# Getting week number
df['Week_Number'] = df['Date'].dt.week
# Getting year. Weeknum is common across years to we need to create unique index by using year and weeknum
df['Year'] = df['Date'].dt.year

# Grouping based on required values
df2 = df.groupby(['Year','Week_Number']).agg({'Open Price':'first', 'High Price':'max', 'Low Price':'min', 'Close Price':'last','Total Traded Quantity':'sum'})
# df3 = df.groupby(['Year','Week_Number']).agg({'Open Price':'first', 'High Price':'max', 'Low Price':'min', 'Close Price':'last','Total Traded Quantity':'sum','Average Price':'avg'})
df2.to_csv('Weekly_OHLC.csv')
print('*** Program ended ***')

答案 3 :(得分:0)

不是直接的答案,但是假设这些列是日期(表的转置),而没有丢失日期。

'''sum up daily results in df to weekly results in wdf'''
wdf = pd.DataFrame(index = df.index)
for i in range(len(df.columns)):
    if (i!=0) & (i%7==0):
        wdf['week'+str(i//7)]= df[df.columns[i-7:i]].sum(axis = 1)