我正在创建一个python模块,它创建并操作数据结构,以存储来自真实实验的大量语义标记数据和元数据。所以在一个实验中你有:
将这3个类别包含在实验中,这三个类别的组合就是我所说的"单位"。现在,3(表格式)之间没有固有的正确层次结构,但对于某些分析,将3的某种排列视为层次结构是有用的,
e.g。 (受试者 - >(处理 - >(重复)))
或
(复制 - >(处理 - >(受试者)))
此外,在收集数据时,文件将被复制粘贴到桌面上的文件夹中,因此数据至少以树形式出现。我已经考虑了很多关于哪个层次结构更好"但我一直在为6种可能的排列中的大多数提出用例。我希望我的模块具有灵活性,因为用户可以考虑实验或使用任何层次结构收集数据,表,层次表混合对他们有意义。
"单位"或(表条目)是任意组织复杂性的任意数据量(字节到千兆字节,无论理想情况)的容器。这就是为什么我没有想到关系数据库方法真的要走的路,而NoSQL类型的解决方案更有意义。但是如果没有"正确"那么我有如何订购三个类别的问题。
所以我的问题是这个多方面的数据结构是什么?
是否存在某种流体数据结构或算法集以便轻松地相互转换或生成结构化视图?
答案 0 :(得分:0)
简短的回答是,HDF5解决了这些相当普遍的问题,我建议。 http://www.hdfgroup.org/HDF5/
在python中:http://docs.h5py.org/en/latest/high/group.html http://odo.pydata.org/en/latest/hdf5.html
会有所帮助。