我大量使用Pandas数据帧。并且需要将一些数据附加到数据帧,例如记录数据帧的出生时间,数据帧的附加描述等。
我无法找到数据帧类的保留字段来保存数据。
所以我更改core\frame.py
文件以添加一行_reserved_slot = {}
来解决我的问题。我在这里发布的问题只是想知道这样做可以吗?或者有更好的方法将元数据附加到数据帧/列/行等?
#----------------------------------------------------------------------
# DataFrame class
class DataFrame(NDFrame):
_auto_consolidate = True
_verbose_info = True
_het_axis = 1
_col_klass = Series
_AXIS_NUMBERS = {
'index': 0,
'columns': 1
}
_reserved_slot = {} # Add by bigbug to keep extra data for dataframe
_AXIS_NAMES = dict((v, k) for k, v in _AXIS_NUMBERS.iteritems())
编辑:(为witingkuo添加演示消息)
>>> df = pd.DataFrame(np.random.randn(10,5), columns=list('ABCDEFGHIJKLMN')[0:5])
>>> df
A B C D E
0 0.5890 -0.7683 -1.9752 0.7745 0.8019
1 1.1835 0.0873 0.3492 0.7749 1.1318
2 0.7476 0.4116 0.3427 -0.1355 1.8557
3 1.2738 0.7225 -0.8639 -0.7190 -0.2598
4 -0.3644 -0.4676 0.0837 0.1685 0.8199
5 0.4621 -0.2965 0.7061 -1.3920 0.6838
6 -0.4135 -0.4991 0.7277 -0.6099 1.8606
7 -1.0804 -0.3456 0.8979 0.3319 -1.1907
8 -0.3892 1.2319 -0.4735 0.8516 1.2431
9 -1.0527 0.9307 0.2740 -0.6909 0.4924
>>> df._test = 'hello'
>>> df2 = df.shift(1)
>>> print df2._test
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "D:\Python\lib\site-packages\pandas\core\frame.py", line 2051, in __getattr__
(type(self).__name__, name))
AttributeError: 'DataFrame' object has no attribute '_test'
>>>
答案 0 :(得分:2)
目前不支持此功能。见https://github.com/pydata/pandas/issues/2485。原因是这些属性的传播是非平凡的。您当然可以分配数据,但几乎所有的pandas操作都会返回一个新对象,其中分配的数据将丢失。
答案 1 :(得分:1)
您的_reserved_slot
将成为类变量。如果要为不同的DataFrame
分配不同的值,这可能不起作用。您可以直接将实例分配给实例。
In [6]: import pandas as pd
In [7]: df = pd.DataFrame()
In [8]: df._test = 'hello'
In [9]: df._test
Out[9]: 'hello'
答案 2 :(得分:0)
我认为一个不错的解决方法是将您的数据声誉放入字典中,并将元数据作为其他键。因此,如果您有一个具有现金流量的数据框,例如:
df = pd.DataFrame({'Amount': [-20, 15, 25, 30, 100]},index=pd.date_range(start='1/1/2018', periods=5))
您可以使用其他元数据创建字典并将数据框放在其中
out = {'metadata': {'Name': 'Whatever', 'Account': 'Something else'}, 'df': df}
,然后将其用作out[df]