PDF / TIFF文档文本检测

时间:2018-09-11 10:40:16

标签: python google-cloud-platform ocr python-3.6 google-cloud-vision

我目前正在尝试为我的项目使用Google的云视觉API。问题在于,用于文档文本检测的Google Cloud vision API仅接受Google Cloud Services URI作为输入和输出目标。但是我所有的项目,数据都在Amazon S3服务器中,不能直接与此API一起使用。

要注意的要点:-

  1. 所有数据应仅保留在 S3 中。
  2. 我现在无法将云存储更改为 GCS
  3. 我无法从 S3 下载文件并将其手动上传到 GCS 。 每天收到的文件数量大于1000且小于 十万
  4. 即使我可以自动化pdf的下载和上传, 将成为整个项目的瓶颈,因为我不得不处理 并发问题和内存管理。

是否有任何变通办法使此API与S3 URI一起使用?我需要你的帮助。

谢谢

1 个答案:

答案 0 :(得分:0)

当前,除了Google Cloud Storage之外,Vision API不适用于URL。对于图像搜索,有一个feature request与将API与特定URL结合使用,您可能会要求对PDF / TIFF文档也考虑使用此功能,或者针对这种情况提出新的feature request