摆脱语料库

时间:2017-03-27 14:03:55

标签: python error-handling zlib

我有一组1000个文档 - 编码和压缩 - 存储在我的计算机上的lsm-db中。当我尝试解压缩和解码时,我收到一个错误,指出"错误的标题检查"。

这就是我正在做的事情:

for key in my_lsm_db.keys():
    print key, zlib.decompress(my_lsm_db[key], zlib.MAX_WBITS|32).decode('utf-8')

处理完几个键后,代码会抛出错误。我收到的错误是:error: Error -3 while decompressing data: incorrect header check

我想从语料库中删除所有此类错误生成文档。如何识别产生错误的文档,以便删除它们?

def remove_docs(my_lsm_db):
    for key in my_lsm_db.keys():
        ## write code that identifies an error when generated
        if <code that identifies document generating error>:
            del my_lsm_db[key]



以下是有关Zlib和MAX_WBITS部分代码的一些信息:Zlib CompressionStack Overflow Answer for Zlib Automatic Header Detection

1 个答案:

答案 0 :(得分:0)

我尝试在代码周围使用try / except块来克服此类错误生成文档。它不仅适用于上述代码,也适用于其他内容。

$("td").click(function(event) {
  $(this).toggleClass("black white");
  color = $(this).hasClass("black") ? "black" : "white";
  update(event.target.id, color);
});