大阵列系列的差异归档

时间:2014-04-14 20:22:27

标签: c# python c++ arrays unit-testing

我正在为一组特定程序构建单元测试框架,该程序在大量二维数组上运行。这些数组包含浮点数,大小为500x700。每个单元测试输入一些阵列,并用其他数据检查单元输出。每个测试应该在很长的输入序列上运行(大约2000个唯一数据集)。所有输入数据都无法动态生成,因为它需要的时间太长(超过10分钟)。所以,我需要将所有输入数据存储在某处。但是,由于模块数量的原因,将所有未压缩存储的存储大约需要100 GB或更多。定期压缩方法将这个数字减少了一半,这仍然太多了,考虑到这个数量将来可能增长10倍。

现在,序列中的每个数据集与前一个数据集没有太大差别,因此某种差异存档将是解决问题的好方法。数据将被写入数据库一次,然后每次测试将多次读取它的部分,因此读取操作应该很快。 问题是:是否有某种类型的数据库支持开箱即用的这种类型的存储?目前,我正在使用Pytables / HDF5,但除了自己实现之外,我无法找到满足此特殊需求的任何内容。我正在寻找任何可以支持我的数据的差分编码/存档软件,并且用C ++,C#或Python编写的程序也不会太难用。

0 个答案:

没有答案