如何处理与pandas数据帧相关的元数据?

时间:2016-09-28 15:29:51

标签: python pandas metadata finance divide

将元信息保存到数据框的最佳做法是什么?我知道以下编码实践

import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'

但正如本文Adding meta-information/metadata to pandas DataFrame中所述,这与通过应用" groupby,pivot,join或loc"等功能丢失信息的风险相关联。因为他们可能会返回一个没有附加元数据的新DataFrame"。

这是否仍然有效或者同时对元信息处理进行了更新?什么是替代编码实践?

我不认为构建一个单独的对象是非常合适的。使用Multiindex也无法说服我。假设我想将数据框架的价格除以带有收入的数据框。与Multiindices合作非常复杂。

#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)

# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
    [['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]], 
                columns=e_index)

price.divide(earnings.values, level=1, axis=0)

在上面的示例中,我甚至不确保公司指数真正匹配。我可能需要调用pd.DataFrame.reindex()或类似的东西。在我看来,这不是一个好的编码实践。

在我看不到的上下文中处理元信息的问题是否有直接的解决方案?

提前谢谢

2 个答案:

答案 0 :(得分:2)

尽管构建自定义对象不是您的首选,但这可能是您唯一可行的选择,并且具有非常灵活的显着优势。这是一个非常简单的示例:

df=pd.DataFrame({'stock': 'AAPL AAPL MSFT MSFT'.split(),
                 'price':[ 445.,455.,195.,205.]})

col_labels = { 'stock' : 'Ticker Symbol',
               'price' : 'Closing Price in USD' }

那只是列标签的字典,但是通常大多数元数据与特定列相关。这是带有标签的示例数据:

df.rename(columns=col_labels)

#   Ticker Symbol  Closing Price in USD
# 0          AAPL                 445.0
# 1          AAPL                 455.0
# 2          MSFT                 195.0
# 3          MSFT                 205.0

令人高兴的是,标签“ persist”在某种意义上说可以基本上将它们应用于其列是原始列的子集或超集的任何数据:

df.groupby('stock').mean().rename(columns=col_labels)

#        Closing Price in USD
# stock                      
# AAPL                  450.0
# MSFT                  200.0

如果使用'attrs'属性,则可以获得一些有限的持久性:

df.attrs = col_labels

但这是相当有限的。对于通过.copy()loc[]iloc[]从'df'派生的数据帧,它将保持不变,而对于groupby()则不会。当然,您可以使用例如

将其重新附加到任何派生数据帧
df2.attrs = df.attrs

但是正如documentation(或缺少)中所述,这是实验性功能,可能会发生变化。似乎总比没有好,并且将来可能会扩展。我根本找不到关于“ attrs”的更多信息,但它似乎已初始化为空字典,并且只能是字典(或类似字典),尽管列表可能嵌套在顶层以下。

答案 1 :(得分:0)

我认为MultiIndexes是要走的路,但是这样:

daily_price_data = pd.DataFrame({'Apple': [90, 85, 30], 'MSFT':[20, 30, 25]})
daily_earnings_data = pd.DataFrame({'Apple': [5000, 58000, 5100], 'MSFT':[2000, 2200, 3000]})
data = pd.concat({'price':daily_price_data, 'earnings': daily_earnings_data}, axis=1)
data


    earnings        price
    Apple   MSFT    Apple   MSFT
0   5000    2000    90      20
1   58000   2200    85      30
2   5100    3000    30      25

然后,划分:

data['price'] / data['earnings']

如果您发现您的工作流程更有意义让公司列在索引的第一级,那么pandas.DataFrame.xs将非常有用:

data2 = data.reorder_levels([1,0], axis=1).sort_index(axis=1)
data2.xs('price', axis=1, level=-1) / data2.xs('earnings', axis=1, level=-1)