是否可以使用Google脚本将Google云端硬盘中的不可搜索PDF转换为可搜索PDF?

时间:2019-07-09 15:45:59

标签: pdf google-apps-script ocr drive

我想使用Google Apps Spript 将不可搜索的PDF转换为文本上被覆盖的可搜索PDF。

PDF位于我的Google云端硬盘中,我不想将文件上传到另一个网站或下载文件以进行转换。

我没有发现任何资源可以显示文本,类似于Adobe Acrobat进行OCR转换的方法。那么,是否有可能使用GAS进行覆盖?我只看到人们转换为文本或文档文件。

1 个答案:

答案 0 :(得分:0)

Google驱动器具有OCR识别功能,可让您在上传时将图像/不可搜索的PDF转换为Google Docs文件,还具有导出功能,可将Docs文件导出为PDF。但是,没有直接转换方法,在OCR识别期间,格式将丢失。因此,无法创建具有重叠的PDF文件。

您最好的选择是通过Apps脚本中带有UrlFetchApp.fetch()的POST或GET请求来调用外部OCR API。您可以将该方法嵌入到一个函数中,该函数自动遍历所需的驱动器跟踪器,查找所有pdf文件,并使用其URL调用外部OCR API。