如何有效地插入Pytables中的数据

时间:2013-10-17 01:28:33

标签: python numpy scipy interpolation pytables

我在pytables中有很长的数组和时间 - 值对表。我需要能够对这些数据执行线性插值和零阶保持插值。

目前,我正在使用pytables的逐列切片表示法将列转换为numpy数组,然后将numpy数组提供给scipy.interpolate.interp1d以创建插值函数。

有更好的方法吗?

我问的原因是我的理解是将列转换为numpy数组基本上将它们复制到内存中。这意味着当我开始运行我的代码全油门时,我将遇到麻烦,因为我将使用足够大的数据集来淹没我的桌面。如果我在这一点上弄错了,请纠正我。

此外,由于我将使用大量数据,我怀疑编写一个迭代pytables数组/表格以便自己进行插值的函数将非常慢,因为我需要调用插值函数很多次(大约是我试图插入的数据中记录的次数)。

1 个答案:

答案 0 :(得分:1)

你的问题很难回答,因为在记忆和计算时间之间总是存在权衡,你基本上要求不必牺牲其中任何一个,这是不可能的。 scipy.interpolate.interp1d()要求数组在内存中并编写核心内插器要求您使用调用它的次数线性查询磁盘。

那就是说,你可以做几件事,其中没有一件是完美的。

您可以尝试的第一件事是对数据进行下采样。这将通过您采样的因子减少内存中需要的数据。缺点是你的插值更粗糙。幸运的是,这很容易做到。只需为您访问的列提供步长。对于4的下采样系数,您可以这样做:

with tb.open_file('myfile.h5', 'r') as f:
    x = f.root.mytable.cols.x[::4]
    y = f.root.mytable.cols.y[::4]

f = scipy.interpolate.interp1d(x, y)
ynew = f(xnew)

如果您愿意,可以根据可用内存调整此步长。

或者,如果要为 - xnew插值的数据集仅存在于原始域的子集中,则可以仅读取原始表中新邻域中的部分内容。给定10%的软糖因子,您可以执行以下操作:

query = "{0} <= x & x <= {1}".format(xnew.min()*0.9, xnew.max()*1.1)

with tb.open_file('myfile.h5', 'r') as f:
    data = f.root.mytable.read_where(query)

f = scipy.interpolate.interp1d(data['x'], data['y'])
ynew = f(xnew)

扩展这个想法,如果我们有xnew排序(单调递增)但扩展到整个原始域的情况,那么你可以从磁盘上的表中读取一个分块的方式。假设我们想要10个块:

newlen = len(xnew)
chunks = 10
chunklen = newlen/ chunks
ynew = np.empty(newlen, dtype=float)
for i in range(chunks):
    xnew_chunk = xnew[i*chunklen:(i+1)*chunklen]
    query = "{0} <= x & x <= {1}".format(xnew_chunklen.min()*0.9, 
                                         xnew_chunklen.max()*1.1)

    with tb.open_file('myfile.h5', 'r') as f:
        data = f.root.mytable.read_where(query)

    f = scipy.interpolate.interp1d(data['x'], data['y'])
    ynew[i*chunklen:(i+1)*chunklen] = f(xnew_chunk)

在内存和I / O速度之间取得平衡始终是一项挑战。根据您的数据规律,您可以采取一些措施来加快这些策略的速度。不过,这应该足以让你开始。