PDF.js获取AcroForm元素位置/维度

时间:2015-03-02 14:34:53

标签: javascript html pdf pdf.js

我正在尝试解析PDF文档,这很顺利。 PDF是在Adobe FormCentral中创建的,包含一个表单元素(日期字段)。

头:

<script type="text/javascript" charset="utf-8" src="jquery.js"></script>
<script type="text/javascript" charset="utf-8" src="common.js"></script>
<script type="text/javascript" charset="utf-8" src="pdfjs/build/pdf.js"></script>
<script type="text/javascript" charset="utf-8" src="mscripts.js"></script>
   <script type="text/javascript">
    $(document).ready(function() {
        loadPDFJS();
    });
</script>

体:

<div id="viewer"></div>

JS:

function loadPDFJS(){
    var canvasContainer = document.getElementById('viewer');
    PDFJS.workerSrc = 'build/pdf.worker.js';

    PDFJS.getDocument('mpdf.pdf').then(function(pdf) {
        pdf.getPage(1).then(renderPage);

        function renderPage(page) {
            console.log(page);
            var xyz = window.getComputedStyle(canvasContainer);
            var w = parseInt(xyz.width.replace("px", ""));

            var viewport = page.getViewport(1);
            var scale = w / viewport.width;
            var scaledViewport = page.getViewport(scale);

            var canvas = document.createElement('canvas');
            var context = canvas.getContext('2d');
            canvas.height = scaledViewport.height;
            canvas.width = scaledViewport.width;

            var renderContext = {
                canvasContext: context,
                viewport: scaledViewport
            };
            page.render(renderContext).then(function () {
                document.getElementById('viewer').appendChild(canvas);
            });
        }
    });
}

这段代码确实呈现了PDF。但问题来了。我需要知道元素的尺寸和位置(在这种情况下,只有一个)。我查看了PDF.js github页面上的Demo,并记录了页面对象。在包含文本的PDF文档中,我注意到记录的PDFPage包含文本(但是我无法提取任何维度),但表单元素似乎无法解析。也许他们是背景的一部分?

我只能找到一个用于访问AcroForm字段的Java库here,但我宁愿只关注一个库(最好是PDF.js)

问题:如何使用PDF.js检索PDF文档的所有表单元素的位置和尺寸?

1 个答案:

答案 0 :(得分:5)

老问题,但对于那些最终来到这里的人来说,它值得回答:

page.getAnnotations().then(function(items) {
    console.log(items);
});

Items应该是一个数组,每个元素都应该有一个rect。还有这个PDF(js的fork),它扩展了包含表单字段的功能,允许用户从PDF渲染输入:

https://github.com/EvilTrev/pdf.js