Python PyPDF2计算扫描PDF中的PDF页面生成Xref表而不是零索引

时间:2017-12-28 17:02:01

标签: python python-3.x pdf pypdf2

我编写了一个快速脚本来计算PDF文件中的页面。但是,在某些文件中无法读取它并返回Xref表的错误而不是零索引。基本上,当需要Object Id(5.0)并获得Object Id(4.0)时。此外,我还有其他Object Id(7.0),并获得Object Id(6.0)等...

我的代码是:

<!DOCTYPE html>
<html>

<head>
    <meta charset="utf-8">
    <title>Canvas Texture</title>
    <meta name="description" content="Canvas Texture - A-Frame">
    <script src="./components/aframe-v0.6.0.js"></script>
    <script src="./components/slideshow.js"></script>
</head>

<body>
    <a-scene>
        <a-assets>
            <img id="pic01" src="Tulips.jpg">
            <img id="pic02" src="Tulips2.jpg">
            <img id="pic03" src="Tulips3.jpg">
            <canvas id="slide" name="slide" crossOrigin="anonymous"> </canvas>
        </a-assets>
        <a-sky material="shader: flat; src: #slide" draw-canvas="#slide">
            <a-sky/>
    </a-scene>
</body>

</html>

所以,碰巧我必须计算许多扫描的PDF文件的页面,其中很大一部分,其中大约80%被过滤到错误文件,因为上面提到的错误。有没有办法防止外部参照表没有零索引错误?

谢谢。

1 个答案:

答案 0 :(得分:0)

我已经解决了部分问题。将参数strict设置为false,它允许打开比以前更多的文件

更改此行:     page_Count = PdfFileReader(PDF).getNumPages() 至     page_Count = PdfFileReader(PDF,strict = False).getNumPages()