Question

我目前有一个CSV，其中包含很多行（大约200k），每行上都有很多列。我基本上想进行时间序列培训和测试数据拆分。我的数据集中有很多独特的项目，我希望每个项目的前80％（按时间顺序）都在训练数据中。为此，我编写了以下代码

import pandas as pd 
df = pd.read_csv('Data.csv')
df['Date'] = pd.to_datetime(df['Date'])
test = pd.DataFrame()
train = pd.DataFrame()
itemids = df.itemid.unique()
for i in itemids:
    df2 = df.loc[df['itemid'] == i]
    df2 = df2.sort_values(by='Date',ascending=True)
    trainvals = df2[:int(len(df2)*0.8)]
    testvals = df2[int(len(df2)*0.8):]
    train.append(trainvals)
    test.append(testvals)

似乎trainvals和testvals的填充正确，但是没有将它们添加到测试和training中。我加错了吗？

Answer 1

您的直接问题不是在for循环内重新分配：

train = train.append(trainvals) 
test = test.append(testvals)

但是，在循环中增长大量对象（如数据帧）变得内存效率低下。相反，可以考虑在groupby上进行迭代，以通过列表理解构建包含测试和训练拆分的字典列表。然后调用pd.concat将每个集合绑定在一起。使用定义的方法来组织处理。

def split_dfs(df): 
   df = df.sort_values(by='Date') 
   trainvals = df[:int(len(df)*0.8)] 
   testvals = df[int(len(df)*0.8):] 

   return {'train': trainvals, 'test': testvals}

dfs =  [split_dfs(df) for g,df in df.groupby['itemid']]

train_df = pd.concat([x['train'] for x in dfs])
test_df = pd.concat(x['test'] for x in dfs])

Answer 2

您可以使用def sum(L): for x in range(len(L) //2): a = L[x] b = L[-x + 1]避免循环。

a = L[x]
b = L[-x + 1]

请注意，如果df.groupby.quantile不是唯一的，则可能会发生意外的行为。

时间序列的分割熊猫数据框

2 个答案: