首先:我知道这是一个危险的问题。关于在pandas中存储和访问嵌套数据有a lot个类似的问题,但我认为我的问题不同(更一般),所以请坚持下去。 :)
我有1名运动员的中等锻炼数据集。每个锻炼具有日期和时间,约200个属性(例如平均速度和心率)和一些原始数据(例如每秒3-10个速度和心率值列表)。我有大约300次锻炼,每次锻炼平均包含约4000秒。
到目前为止,我尝试了3种解决方案,用pandas存储这些数据,以便能够对其进行分析:
MultiIndex
并将所有数据存储在1个DataFrame中但是这样
DataFrame会变得非常大(这不是一个问题
但在视觉上检查它会很困难)并且切片数据很麻烦。df_1
中并将原始数据存储在单独的文件中
我将存储在单独的列df_2
中的DataFrame raw_data
在df_1
。DataFrame
中
我存储在dict
中,其键与索引相同
DataFrame
df_1
。这些解决方案中的任何一个都起作用,对于这个用例,它们中的任何一个都没有重大的性能优势。对我来说(1)感觉最好的' Pandorable' (真的很喜欢那个词:))但是切片数据很困难,DataFrame
(打印它)的视觉检查是没有用的。 (2)感觉有点'hackish'并且就地修改可能不可靠,但这个解决方案非常适合使用。 (3)丑陋而且有点难以使用,但在我看来也是最恐怖的。
问题:您认为每种方法的好处是什么,最有利的解决方案是什么?
顺便说一句:当然我对替代解决方案持开放态度。