从Google获取PDF中的文字

时间:2016-07-03 04:12:30

标签: pdf google-apps-script google-drive-api drive

我有一个保存在Google云端硬盘中的PDF文档。我可以使用Google Drive Web UI搜索在文档中查找文本。

如何使用Google Apps脚本以编程方式提取文档中的部分文本?

1 个答案:

答案 0 :(得分:3)

请参阅this gist中的pdfToText()

在PDF文件中调用内置于Google云端硬盘的OCR,例如: myPDF.pdf,这就是您所做的:

function myFunction() {
  var pdfFile = DriveApp.getFilesByName("myPDF.pdf").next();
  var blob = pdfFile.getBlob();

  // Get the text from pdf
  var filetext = pdfToText( blob, {keepTextfile: false} );

  // Now do whatever you want with filetext...
}