我想编写JavaScript代码来从PDF文件中提取所有图像文件,或者将它们作为JPG或其他图像格式获取。已经存在一些用于读取PDF文件的JavaScript代码,例如在PDF查看器pdf-js中。
window.addEventListener('change', function webViewerChange(evt) {
var files = evt.target.files;
if (!files || files.length === 0)
return;
// Read the local file into a Uint8Array.
var fileReader = new FileReader();
fileReader.onload = function webViewerChangeFileReaderOnload(evt) {
var buffer = evt.target.result;
var uint8Array = new Uint8Array(buffer);
PDFView.open(uint8Array, 0);
};
var file = files[0];
fileReader.readAsArrayBuffer(file);
PDFView.setTitleUsingUrl(file.name);
........
我可以使用此代码来帮助读取和提取图像文件吗?
答案 0 :(得分:9)
如果您打开包含pdf.js
的页面,例如
PDFJS.getDocument({url: <pdf file>}).then(function (doc) {
doc.getPage(1).then(function (page) {
window.page = page;
})
})
然后,您可以使用getOperatorList
搜索paintJpegXObject
个对象并获取资源。
window.objs = []
page.getOperatorList().then(function (ops) {
for (var i=0; i < ops.fnArray.length; i++) {
if (ops.fnArray[i] == PDFJS.OPS.paintJpegXObject) {
window.objs.push(ops.argsArray[i][0])
}
}
})
现在args
将包含您需要获取的该页面的资源列表。
console.log(window.args.map(function (a) { page.objs.get(a) }))
应该向控制台打印一堆具有data-uri <img />
属性的src=
个对象。这些可以直接插入到页面中,或者您可以执行更多脚本来获取原始数据。
它仅适用于嵌入式JPEG对象,但它是一个开始!