从Python打开megawarc存档时出错

时间:2013-06-12 12:02:17

标签: python python-2.7

我发现自己必须使用python脚本来访问webarchive。

我所拥有的是来自http://archive.org/details/archiveteam-fanfiction-warc-11的'megawarc'网络存档文件。我需要使用在https://github.com/alard/megawarc找到的python脚本来解决这个问题。

我正在尝试运行'restore'命令,我需要三个文件(FILE.warc.gz, 来自第一个链接的FILE.tar和FILE.json.gz。

我安装了python 2.7和3.3。

--------------更新--------------

我已经运行了这种方法..

python megawarc restore FILE

和这种方法..

确保您在同一目录中包含文件megawarc和ordereddict.py,以及要转换的文件。     将文件megawarc重命名为megawarc.py     在此目录中打开一个python控制台

Type the following code (line by line) :

import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main()

使用python 2.7,这就是我得到的......

c:\Python27>python megawarc restore FILE
Traceback (most recent call last):
  File "megawarc", line 563, in <module>
main()
  File "megawarc", line 552, in main
mwr.process()
  File "megawarc", line 460, in process
self.process_entry(entry, tar_out)
  File "megawarc", line 478, in process_entry
entry["target"]["offset"], entry["target"]["size"])
  File "megawarc", line 128, in copy_to_stream
raise Exception("End of file: %d bytes expected, but %d bytes read." % (buf_size, l))
Exception: End of file: 4096 bytes expected, but 236 bytes read.

我还缺少其他东西吗?

我有以下文件     C:\ python27

FILE.megawarc.json.gz

FILE.megawarc.tar

FILE.megawarc.warc.gz

megawarc

ordereddict.py

这是某种类型的损坏文件错误吗?有什么我想念的吗?

1 个答案:

答案 0 :(得分:6)

在您提供的第二个链接上,有两个重要文件:

megawarc
ordereddict.py

可执行脚本为megawarc。要运行它,您必须使用

在shell中启动它
python megawarc restore FILE

或者,如果您使用的是基于UNIX的系统。你可以做到

chmod +x megawarc

为megawarc脚本提供可执行属性,然后使用

运行它
./megawarc restore FILE

此处,如果您拥有的3个文件是FILEFILE.warc.gzFILE.tarFILE.json.gz是您应该输入的实际名称。如果需要,您必须通过3个输入文件的公共前缀更改此参数。

编辑:

好的,如果你没有标准shell来在命令行中启动脚本,我找到了一个可行的替代方法。 你要做的是:

  • 确保您在同一目录中包含文件megawarcordereddict.py以及要转换的文件。
  • 将文件megawarc重命名为megawarc.py
  • 在此目录中打开python控制台
  • 键入以下代码(逐行):

    import sys
    sys.argv = ['megawarc','restore','FILE']
    import megawarc
    megawarc.main()
    

这应该有效,我刚尝试过。 希望它会有所帮助。