Python 3.5:Tarfile在空焦

时间:2017-07-28 14:30:23

标签: python-3.x tarfile

我在使用最新的python 3.5软件包及其tarfile模块创建新的tarfiles时遇到了问题。此问题与讨论herehere的问题类似。在前一种情况下,建议的解决方案返回错误ReadError: empty header,而在后一种情况下,它是八年前的一个封闭问题,应该已经通过加载最新版本的语言来应用补丁。 Tarfile模块的文档明确声明“a”可用于创建新的tar文件。

特别是在尝试创建新tarfile的情况下会出现此问题。生成它的代码将在下面完整复制;我用来在多处理中对任务进行基准测试的简单脚本。

#just a little script to test copy times for a control

import os
import os.path
import time
import shutil
import multiprocessing
import tarfile

global source; source = "/home/patches/Documents/Scripting Projects/Resources/Test Payload"
global dest; dest = "/home/patches/Desktop/Copy Benchmark 
Output.tar.bz2"
global start
global end
global diff
global testing; testing = True
global numConsumers; numConsumers = multiprocessing.cpu_count()


#Classes!
class copyProc(multiprocessing.Process):
    def __init__(self, qTask):
        multiprocessing.Process.__init__(self)
        self.qTask = qTask
        os.chdir(source)

    def run(self):
        proc_name = self.name
        while True:
            next_task = self.qTask.get()
            if next_task is None:
                # Poison pill means shutdown
                print('%s: Exiting' % proc_name)
                self.qTask.task_done()
                break
            next_task()
            self.qTask.task_done()
        return

class copyJob(object):
    def __init__(self, a):
        self.tgt = a
    def __call__(self):
        tar = tarfile.open(dest, "a")
        tar.add(self.tgt)
        tar.close()

#Function
def announce():
    print("Starting copy benchmark - multiprocessing.")
    foo = input("Press any key to begin")

def startTimer():
    global start
    start = time.time()


def setup():
    os.chdir(source)
    for a, b, files in os.walk(source):
        for file in files:
        tasks.put(copyJob(file))
    for i in range(numConsumers):
        tasks.put(None)

def endTimer():
    global end
    end = time.time()

def prompt():
    diff = end - start
#   os.remove(dest)
    print("The test took %s seconds" % str(diff))
    bar = input("Run again? Y/n")
    if bar == "n":
        testing = False

#runtime
if __name__ == '__main__':
    multiprocessing.set_start_method("spawn")
    tasks = multiprocessing.JoinableQueue()
    announce()
    startTimer()
    setup()
consumers = []
for i in range(numConsumers):
    consumers.append(copyProc(tasks))
for w in consumers:
    w.start()
tasks.join()
endTimer()
prompt()

编辑添加:具体问题是,在尝试打开tarfile时,脚本会抛出“ReadError:empty header”异常而不是特定行为。

1 个答案:

答案 0 :(得分:0)

事实证明,问题是多个进程试图或多或少地同时打开文件导致了这个问题。解决方案是使用某种形式的锁定来防止这种情况。

就我而言,我使用了一个简单的multiprocessing.Lock()对象,让进程在追加之前获取它,然后释放它。此解决方案仍然比在单个进程中执行所有追加更快。不知道为什么。

我希望,如果像我一样,你有这个问题,那么这个解决方案也适合你。