Pandas中的嵌套数据

时间:2016-08-15 13:29:39

标签: python pandas data-structures

首先:我知道这是一个危险的问题。关于在pandas中存储和访问嵌套数据有a lot个类似的问题,但我认为我的问题不同(更一般),所以请坚持下去。 :)

我有1名运动员的中等锻炼数据集。每个锻炼具有日期和时间,约200个属性(例如平均速度和心率)和一些原始数据(例如每秒3-10个速度和心率值列表)。我有大约300次锻炼,每次锻炼平均包含约4000秒。

到目前为止,我尝试了3种解决方案,用pandas存储这些数据,以便能够对其进行分析:

  1. 我可以使用MultiIndex并将所有数据存储在1个DataFrame中但是这样 DataFrame会变得非常大(这不是一个问题 但在视觉上检查它会很困难)并且切片数据很麻烦。
  2. 另一种方法是存储日期和属性 在DataFrame df_1中并将原始数据存储在单独的文件中 我将存储在单独的列df_2中的DataFrame raw_datadf_1
  3. ...或(类似于(2))我可以将原始数据存储在单独的DataFrame中 我存储在dict中,其键与索引相同 DataFrame df_1
  4. 这些解决方案中的任何一个都起作用,对于这个用例,它们中的任何一个都没有重大的性能优势。对我来说(1)感觉最好的' Pandorable' (真的很喜欢那个词:))但是切片数据很困难,DataFrame(打印它)的视觉检查是没有用的。 (2)感觉有点'hackish'并且就地修改可能不可靠,但这个解决方案非常适合使用。 (3)丑陋而且有点难以使用,但在我看来也是最恐怖的。

    问题:您认为每种方法的好处是什么,最有利的解决方案是什么?

    顺便说一句:当然我对替代解决方案持开放态度。

0 个答案:

没有答案