Python中的60 GB(大容量)TDMS文件分析

时间:2019-04-25 15:28:02

标签: python-3.x bigdata

我使用 npTdms 模块处理National Instruments tdms数据帧。我必须处理庞大的数据集,例如,我的每个tdms文件对应于60GB。大约约7.8125e + 09双精度型值。导入数据仅占工作的10%,其余的就是对这些导入的数据集进行数字运算。

特别是由于我必须处理多个60GB文件,我该如何处理。解决这个问题的正确方法是什么?

我尝试过的事情:

  1. 使用npTdms和pandas将其作为数据帧导入-从字面上看大约要花15分钟并处理单个60GB的文件,当我批量处理时会崩溃并显示内存警告。
  2. 使用由Jim Hokanson开发的带有tdms读取器模块的Matlab。在7.78秒内导入单个60GB tdms文件。这远胜于Python,但我知道也可以使用Python来实现。
  3. 尝试在写入磁盘后对tdms进行碎片整理,以优化读取性能。在npTdms和pandas方法方面并没有太大的区别。尚未在matlab中尝试过。

0 个答案:

没有答案