每天自动从各个网站导入新的pdf文件

时间:2019-01-04 19:37:17

标签: pdf google-drive-api

不知道这是否有可能,但是这里...

  1. 我需要一个每天自动检查特定网站是否存在新pdf文件的过程。这些站点被构造为文件存储库(不是FTP站点),如下所示:

http://www.austrac.gov.au/enforcement-action/enforceable-undertakings

  1. 如果进程发现前一天没有的新文件,则应自动将其下载到如下所示的Google云端硬盘文件夹中:

https://drive.google.com/drive/folders/1Hy27yHU2SdKzHhWTs6uLr92QUWCisJtL

  1. 理想情况下,还需要将文档标题,链接,元描述和下载日期输入到Master Source电子表格中,该电子表格会记录所有已下载的此类文件。每次下载时,它都必须在此电子表格中自动创建一个新行。

  2. 更理想的是,它应充分解析pdf文件以识别页面标题和文档摘要,并将其存储在Master Source电子表格中。

代码将是令人敬畏的,但即使是高级过程解决方案也欢迎使用。谢谢!

0 个答案:

没有答案