c# - 为什么Google PDF DOCUMENT_TEXT_DETECTION API比Google JPG DOCUMENT_TEXT_DETECTION API慢得多

为什么Google PDF DOCUMENT_TEXT_DETECTION API比Google JPG DOCUMENT_TEXT_DETECTION API慢得多

时间：2019-05-20 00:24:13

标签： c# asp.net google-cloud-platform google-api google-vision

我注意到Google Vision PDF OCR DOCUMENT_TEXT_DETECTION大约需要15秒才能检测到一个PDF页面https://cloud.google.com/vision/docs/pdf。
但是，如果我提交与JPG相同的PDF页面，则只需不到3秒的时间即可检测到文本https://cloud.google.com/vision/docs/detecting-fulltext

我使用了此处提供的代码（C＃）https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp

我注意到下面的代码行说要检测到PDF中的所有文本并将其保存到gsBucket，大约需要15秒 operation.PollUntilCompleted();

我的GsBucket是“多区域存储”美国
我也在从美国位置上传

我想知道我还能采取什么措施来加快这一过程，或者这是预期的吗？

1 个答案:

答案 0 :(得分：0)

您可以在此Google Groups thread中找到查询的答案。作为总结：

离线批处理API的设计运行时间不短，因为第一要务。相反，它旨在为大型根据配额限制的多页PDF / TIFF文件数。所以而不是一一发送PDF / TIFF文件，而是等待每个成功，典型的使用方式是发送尽可能多的PDF / TIFF文件尽可能一次或连续地跟踪每个操作ID 获得每个PDF / TIFF处理的最终结果。

小批量在线处理feature mentioned in the comments似乎在C＃客户端库中尚不可用。解决方法是直接调用REST API或使用其他语言的客户端库。