使用Google脚本提取pdf网址的内容文本

时间:2019-03-22 10:30:12

标签: javascript google-apps-script

例如,我有以下pdf网址:

https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

使用 google脚本,我想提取其中的内容。到目前为止,我尝试过的是:

var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
Logger.log(response.getContentText()); 

不幸的是,这将返回不可读且与我无关的html文本。我想提取此文档的正文(实际的文本信息)。您对此有类似的经验吗?

1 个答案:

答案 0 :(得分:0)

实际上我找到了解决方案。您可以将其转换为pdf类型的 blob ,然后使用pdftotext将其转换为文本。

 var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
  var blob = response.getAs('application/pdf')
  var filetext = pdfToText( blob, {keepTextfile: false} );