在Google Apps脚本中将带有图像的PDF转换为Google Doc

时间:2019-11-14 10:30:44

标签: javascript pdf google-apps-script google-drive-api

我正在使用Google Apps脚本和Google Drive API将存储在驱动器中的PDF文件转换为Google Doc。问题在于,PDF正在转换为Google文档,但是新生成的文档中没有图像和表格格式,仅显示文本和带有颜色的文本。

我的代码如下:

function pdfToDoc() {
  var fileBlob = DriveApp.getFileById('MY_PDF_ID').getBlob();
  var resource = {
    title: fileBlob.getName(),
    mimeType: fileBlob.getContentType()
  };
  var options = {
    ocr: true,
    convert: true
  };
  var docFile = Drive.Files.insert(resource, fileBlob, options);  
  Logger.log(docFile.alternateLink);
}

我在这里做错什么了吗?我一直在寻找解决方案,但没有运气。如何将PDF完美转换为Google文档?

1 个答案:

答案 0 :(得分:0)

目前,这是不可能的。 Google云端硬盘使用基本的OCR来将PDF转换为文档,但它不处理图像-仅处理文本。如果您仍然对保留图像感兴趣,可以:

  • 调用一个将PDF转换为DOC / DOCX文件的外部API,然后使用{convert:true}将其上传以将其转换为Docs文件。您可以为此使用URLFetchApp(在这种情况下,转换将正常进行,因为它是从DOC / DOCX类型到Docs类型的,而不是结构不同的PDF)。
  • 在Google的Public issue tracker中提出功能请求,以便可以认为该功能已实现。