例如,我有以下pdf网址:
https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf
使用 google脚本,我想提取其中的内容。到目前为止,我尝试过的是:
var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
Logger.log(response.getContentText());
不幸的是,这将返回不可读且与我无关的html文本。我想提取此文档的正文(实际的文本信息)。您对此有类似的经验吗?
答案 0 :(得分:0)
实际上我找到了解决方案。您可以将其转换为pdf类型的 blob ,然后使用pdftotext将其转换为文本。
var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
var blob = response.getAs('application/pdf')
var filetext = pdfToText( blob, {keepTextfile: false} );