在python中将数组存储到持久内存的有效方法

时间:2017-11-17 16:53:03

标签: python arrays performance sparse-matrix pytables

假设我们有一个像这样的长一维数组,有数百万个元素:

// ==UserScript== // @name Ticker // @namespace Ticker // @description Ticker // @include https://www.facebook.com // ==/UserScript== var query = document.querySelector('#pagelet_ticker'); //added # query.setAttribute("class", "sidebar"); query.setAttribute("style", "height: 50%;"); //changed attribute to style

如果只有一个重复元素,我们可以使用稀疏数组,但因为它可以是任何类型的整数值(或一组标称元素),这不是我想的那个技巧(或者我错了吗? )。

我读到PyTables能够基于HDF5文件动态压缩这样的数据,据我所知,这似乎是python的选项。

是否有人有过这方面的经验并且可以判断这是否是一条适当的路径还是有其他方式,在cpu和内存使用方面更有效率(将最少的CPU周期交换到减少的内存中)尺寸)。

2 个答案:

答案 0 :(得分:2)

我尝试使用数据的重复性质。我们假设您将数据存储在一个长序列中,例如列表:

long_sequence = [0,1,1,1,1,2,1,1,1,1,1,1,1,3,1,2,2,2,2,2,2,2,4,4,4,4,4,4,4,4,4,3,4,1,1,1,1]

现在,我将更改存储在元组列表中的两个连续元素之间:

compressed_list = []
last_element = None
for i, element in enumerate(long_sequence):
    if element == last_element: continue
    else:
        compressed_list.append((i, element))
        last_element = element

# compressed_list: 
[(0, 0),
 (1, 1),
 (5, 2),
 (6, 1),
 (13, 3),
 (14, 1),
 (15, 2),
 (22, 4),
 (31, 3),
 (32, 4),
 (33, 1)]

现在,这可以解决存储问题,但数据的访问可能仍然在计算上很昂贵(使用纯python):

def element_from_compressed_list_by_index(lst, idx):
     for (i, element), (next_i, _) in zip(lst, lst[1:]):
         if i <= idx < next_i: return element
     else: raise KeyError("No Element found at index {}".format(idx))
# This does not work for the last repetitive section of the sequence,
# but the idea gets across I think...

element_from_compressed_list_by_index(compressed_list, 3)
# Out: 1

读取和存储数据的更好方法可能是sqlite数据库。

import sqlite3 as sq
con = sq.connect(':memory') # would be a file path in your case

# create a database table to store the compressed list
con.execute("CREATE TABLE comp_store (start_index int, element int);")
# add the data
con.executemany("INSERT INTO comp_store (start_index, element) VALUES (?,?)", compressed_list)

要使用索引(在下面的示例中为7)从数据库中获取一个元素,您可以使用以下查询。

con.execute('SELECT element FROM comp_store WHERE start_index <= ? ORDER BY start_index DESC LIMIT 1', 
           (7,))

我认为PyTables仍然是正确的答案,据我所知,HDF5格式广泛用于开源和专有产品。但是如果你想出于某种原因想使用python标准库,这个也是一个很好的方法。

提示:函数zipenumerate在python3中比在python2中更有效(实际上是懒惰的)......

答案 1 :(得分:1)

引用this精彩的答案,几年前帮助了我:

Python-standard shelve模块为持久对象提供类似dict的接口。它适用于许多数据库后端,不受RAM限制。使用shelve而不是直接使用数据库的优势在于,大多数现有代码仍保持原样。这是以速度为代价的(与RAM内部相比)并且以灵活性为代价(与直接使用数据库相比)。

如果我理解你的问题(存储是关注点,而不是阅读),搁置绝对是你要走的路。

将监视线程以获取有关该主题的任何其他创建答案。 : - )