我正在尝试解析PDF文档,这很顺利。 PDF是在Adobe FormCentral中创建的,包含一个表单元素(日期字段)。
头:
<script type="text/javascript" charset="utf-8" src="jquery.js"></script>
<script type="text/javascript" charset="utf-8" src="common.js"></script>
<script type="text/javascript" charset="utf-8" src="pdfjs/build/pdf.js"></script>
<script type="text/javascript" charset="utf-8" src="mscripts.js"></script>
<script type="text/javascript">
$(document).ready(function() {
loadPDFJS();
});
</script>
体:
<div id="viewer"></div>
JS:
function loadPDFJS(){
var canvasContainer = document.getElementById('viewer');
PDFJS.workerSrc = 'build/pdf.worker.js';
PDFJS.getDocument('mpdf.pdf').then(function(pdf) {
pdf.getPage(1).then(renderPage);
function renderPage(page) {
console.log(page);
var xyz = window.getComputedStyle(canvasContainer);
var w = parseInt(xyz.width.replace("px", ""));
var viewport = page.getViewport(1);
var scale = w / viewport.width;
var scaledViewport = page.getViewport(scale);
var canvas = document.createElement('canvas');
var context = canvas.getContext('2d');
canvas.height = scaledViewport.height;
canvas.width = scaledViewport.width;
var renderContext = {
canvasContext: context,
viewport: scaledViewport
};
page.render(renderContext).then(function () {
document.getElementById('viewer').appendChild(canvas);
});
}
});
}
这段代码确实呈现了PDF。但问题来了。我需要知道元素的尺寸和位置(在这种情况下,只有一个)。我查看了PDF.js github页面上的Demo,并记录了页面对象。在包含文本的PDF文档中,我注意到记录的PDFPage包含文本(但是我无法提取任何维度),但表单元素似乎无法解析。也许他们是背景的一部分?
我只能找到一个用于访问AcroForm字段的Java库here,但我宁愿只关注一个库(最好是PDF.js)
问题:如何使用PDF.js检索PDF文档的所有表单元素的位置和尺寸?
答案 0 :(得分:5)
老问题,但对于那些最终来到这里的人来说,它值得回答:
page.getAnnotations().then(function(items) {
console.log(items);
});
Items应该是一个数组,每个元素都应该有一个rect。还有这个PDF(js的fork),它扩展了包含表单字段的功能,允许用户从PDF渲染输入: