我正在处理时间序列数据,并且正在尝试根据该时间序列的原始采样频率(或其他相关元数据)对各种时间序列的操作进行限定。我可以使用以下内容成功设置元数据:
a_df._metadata = ["orig_freq"]
a_df["a_col"].orig_freq = "D"
这似乎是成功的。现在我想根据元数据标准应用函数:
for i in a_df.columns:
if a_df[i].orig_freq == "D":
a_df[i + "_a_new_col"] = a_function(a_df[i])
else:
a_df[i + "_a_new_col"] = a_function_2(a_df[i])
这适用于数据框中的第一列,但在成功操作该列后,我收到以下错误:
AttributeError: 'Series' object has no attribute 'orig_freq'
此时,已删除所有已分配的元数据。我在元数据分配中做错了吗?
答案 0 :(得分:0)
我认为_metadata
需要在课堂上定义(即Series._metadata
),尽管如此,可能会有一些问题。例如,请参阅此issue以获得更多讨论。
如果每列都有一段元数据,那么只需使用MultiIndex
列来存储它就可以更轻松。例如,像这样:
In [43]: df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6]})
In [44]: orig_freqs = {'a': 'D', 'b': 'Q'}
In [45]: df.columns = pd.MultiIndex.from_tuples(([(c, orig_freqs[c]) for c in df]))
In [46]: df
Out[46]:
a b
D Q
0 1 4
1 2 5
2 3 6
In [47]: for (col, orig_freq) in df:
...: df[('new_col', orig_freq)] = a_function(df[(col, orig_freq)])