Python搁架模块内存消耗

时间:2011-05-24 18:30:17

标签: python code-readability shelve tradeoff performance

我被分配了一个读取.txt文件的任务,该文件是各种事件的日志,并将其中一些事件写入字典。

问题是该文件的大小有时会超过3GB。这意味着字典太大而无法放入主内存中。似乎Shelve是解决这个问题的好方法。但是,由于我将不断修改字典,因此必须启用writeback选项。这是我担心的地方 - 教程说这会减慢读/写过程并使用更多内存,但我无法找到有关速度和内存如何受影响的统计信息。

有人可以澄清读/写速度和内存受到多大影响,以便我可以决定是使用回写选项还是牺牲一些可读性来提高代码效率?

谢谢

1 个答案:

答案 0 :(得分:1)

对于这样大小的数据库,搁置真的是错误的工具。如果您不需要高可用性客户端/服务器体系结构,并且只想将TXT文件转换为本地内存可访问数据库,那么您真的应该使用ZODB < / p>

如果您需要高度可用的东西,您当然需要切换到正式的#No; NoSQL&#34;数据库,有很多可供选择。

以下是如何将搁置数据库转换为ZODB数据库的简单示例,该数据库将解决您的内存使用/性能问题。

&#13;
&#13;
#!/usr/bin/env python
import shelve
import ZODB, ZODB.FileStorage
import transaction
from optparse import OptionParser
import os
import sys
import re

reload(sys)
sys.setdefaultencoding("utf-8")

parser = OptionParser()

parser.add_option("-o", "--output", dest = "out_file", default = False, help ="original shelve database filename")
parser.add_option("-i", "--input", dest = "in_file", default = False, help ="new zodb database filename")

parser.set_defaults()
options, args = parser.parse_args()

if options.in_file == False or options.out_file == False :
    print "Need input and output database filenames"
    exit(1)

db = shelve.open(options.in_file, writeback=True)
zstorage = ZODB.FileStorage.FileStorage(options.out_file)
zdb = ZODB.DB(zstorage)
zconnection = zdb.open()
newdb = zconnection.root()

for key, value in db.iteritems() :
    print "Copying key: " + str(key)
    newdb[key] = value
                                                                                                                                                                                                
transaction.commit() 
&#13;
&#13;
&#13;