为什么Google PDF DOCUMENT_TEXT_DETECTION API比Google JPG DOCUMENT_TEXT_DETECTION API慢得多

时间:2019-05-20 00:24:13

标签: c# asp.net google-cloud-platform google-api google-vision

我注意到Google Vision PDF OCR DOCUMENT_TEXT_DETECTION大约需要15秒才能检测到一个PDF页面https://cloud.google.com/vision/docs/pdf
但是,如果我提交与JPG相同的PDF页面,则只需不到3秒的时间即可检测到文本https://cloud.google.com/vision/docs/detecting-fulltext

我使用了此处提供的代码(C#)https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp

我注意到下面的代码行说要检测到PDF中的所有文本并将其保存到gsBucket,大约需要15秒 operation.PollUntilCompleted();

  • 我的GsBucket是“多区域存储”美国
  • 我也在从美国位置上传

我想知道我还能采取什么措施来加快这一过程,或者这是预期的吗?

1 个答案:

答案 0 :(得分:0)

您可以在此Google Groups thread中找到查询的答案。作为总结:

  

离线批处理API的设计运行时间不短,因为   第一要务。相反,它旨在为大型   根据配额限制的多页PDF / TIFF文件数。所以   而不是一一发送PDF / TIFF文件,而是等待每个   成功,典型的使用方式是发送尽可能多的PDF / TIFF文件   尽可能一次或连续地跟踪每个操作ID   获得每个PDF / TIFF处理的最终结果。

小批量在线处理feature mentioned in the comments似乎在C#客户端库中尚不可用。解决方法是直接调用REST API或使用其他语言的客户端库。