可以使用Google Cloud Vision TEXT_DETECTION保留文本结构吗?

时间:2016-02-20 05:49:24

标签: google-cloud-vision

Google Cloud Vision API(测试版)的第1版允许通过TEXT_DETECTION请求进行光学字符识别。虽然识别质量良好,但返回的字符没有任何原始布局的暗示。因此,结构化文本(例如,表格,收据,柱状数据)有时会被错误地排序。

是否可以使用Google Cloud Vision API保留文档结构?类似的问题已被问及tesseract和hOCR。例如,[1]和[2]。目前在文档[3]中没有关于TEXT_DETECTION选项的信息。

[1] How to preserve document structure in tesseract [2] Tesseract - ambiguity in space and tab [3] https://cloud.google.com/vision/

1 个答案:

答案 0 :(得分:2)

认识到文本结构是一个比识别文本本身更抽象的概念:字母,单词,句子。如果您已在文件元数据中包含此文本结构信息,则可以执行以下操作:

  • 将输入图像分段/分割为子部分。
  • 执行text_detection请求。
  • 根据您的元数据正确重新排序文字。

我不是Cloud Vision text_detection API的专家,但它写的是text_detection而不是language_detection或text_structure_detection,因此它提供了一些关于检测级别/层的线索。

也许这是他们计划在未来添加或在文档中描述的功能。