我注意到Google Vision PDF OCR DOCUMENT_TEXT_DETECTION大约需要15秒才能检测到一个PDF页面https://cloud.google.com/vision/docs/pdf。
但是,如果我提交与JPG相同的PDF页面,则只需不到3秒的时间即可检测到文本https://cloud.google.com/vision/docs/detecting-fulltext
我使用了此处提供的代码(C#)https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp
我注意到下面的代码行说要检测到PDF中的所有文本并将其保存到gsBucket,大约需要15秒
operation.PollUntilCompleted();
我想知道我还能采取什么措施来加快这一过程,或者这是预期的吗?
答案 0 :(得分:0)
您可以在此Google Groups thread中找到查询的答案。作为总结:
离线批处理API的设计运行时间不短,因为 第一要务。相反,它旨在为大型 根据配额限制的多页PDF / TIFF文件数。所以 而不是一一发送PDF / TIFF文件,而是等待每个 成功,典型的使用方式是发送尽可能多的PDF / TIFF文件 尽可能一次或连续地跟踪每个操作ID 获得每个PDF / TIFF处理的最终结果。
小批量在线处理feature mentioned in the comments似乎在C#客户端库中尚不可用。解决方法是直接调用REST API或使用其他语言的客户端库。