Puppeteer PDF标题和作者(元数据)

时间:2018-07-03 11:05:06

标签: pdf metadata title puppeteer author

在我所有的搜索和代码挖掘都无济于事之后,我在这里要求提示:

如何使用Puppeteer PDF生成方式设置文件的元数据(特别是标题和作者)?

我尝试在HTML中设置元标记,但没有将它们输出到文件元数据中。

2 个答案:

答案 0 :(得分:3)

Puppeteer不具有将元数据编辑或写入PDF的内置功能。<​​/ p>

相反,您可以安装exiftool命令行实用程序来编辑使用Puppeteer生成的PDF的元数据:

sudo apt install libimage-exiftool-perl

然后,可以在生成PDF之后使用Node.js child_process.exec()函数从程序中调用命令行实用程序:

'use strict';

const puppeteer = require('puppeteer');
const exec = require('util').promisify(require('child_process').exec);

const execute = async command => {
  const {stdout, stderr} = await exec(command);

  console.log((stderr || stdout).trim());
};

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  await page.goto('https://example.com/');

  await page.pdf({
    path: 'example.pdf',
  });

  await execute('exiftool -title="Example PDF" -author="John Doe" /var/www/example.com/public_html/example.pdf');

  await browser.close();
})();

答案 1 :(得分:0)

接受的答案是正确的,因为现在 Puppeeter 不支持设置 pdf 元数据。但我只是想提供一个使用节点包而不是本机库的解决方案:pdf-lib

你需要:

  • 使用 puppeeter 生成 pdf
  • 使用返回的缓冲区加载 pdf'lib 的 PdfDocument
  • 设置你想要的元数据
  • 发送(和/或保存)结果文档
      import puppeteer from 'puppeteer'
      import { PDFDocument } from 'pdf-lib'
      import fs from 'fs'

      // generate pdf page as usual with puppeeter
      const browser = await puppeteer.launch()
      const page = await browser.newPage()
      await page.setContent(`Some html`),
      const puppeeterPdf = await page.pdf()
      await browser.close()

      // Give the buffer to pdf-lib
      const pdfDoc = await PDFDocument.load(puppeeterPdf)
      pdfDoc.setTitle('A title')
      pdfDoc.setAuthor('An author')
      const pdfBytes = await pdfDoc.save()

      // write to disk
      await fs.promises.writeFile('path/to/file.pdf', pdfBytes)
      // send via http
      res.send(Buffer.from(pdfBytes))