Google Cloud Vision API(测试版)的第1版允许通过TEXT_DETECTION请求进行光学字符识别。虽然识别质量良好,但返回的字符没有任何原始布局的暗示。因此,结构化文本(例如,表格,收据,柱状数据)有时会被错误地排序。
是否可以使用Google Cloud Vision API保留文档结构?类似的问题已被问及tesseract和hOCR。例如,[1]和[2]。目前在文档[3]中没有关于TEXT_DETECTION选项的信息。
[1] How to preserve document structure in tesseract [2] Tesseract - ambiguity in space and tab [3] https://cloud.google.com/vision/
答案 0 :(得分:2)
认识到文本结构是一个比识别文本本身更抽象的概念:字母,单词,句子。如果您已在文件元数据中包含此文本结构信息,则可以执行以下操作:
我不是Cloud Vision text_detection API的专家,但它写的是text_detection而不是language_detection或text_structure_detection,因此它提供了一些关于检测级别/层的线索。
也许这是他们计划在未来添加或在文档中描述的功能。