Question

例如，我有以下pdf网址：

https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

使用 google脚本，我想提取其中的内容。到目前为止，我尝试过的是：

var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
Logger.log(response.getContentText());

不幸的是，这将返回不可读且与我无关的html文本。我想提取此文档的正文（实际的文本信息）。您对此有类似的经验吗？

Answer 1

实际上我找到了解决方案。您可以将其转换为pdf类型的 blob ，然后使用pdftotext将其转换为文本。

 var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
  var blob = response.getAs('application/pdf')
  var filetext = pdfToText( blob, {keepTextfile: false} );

使用Google脚本提取pdf网址的内容文本

1 个答案: