Question

我有noticed Google云端硬盘识别PDF格式的文字（以及其他文件，如图片和文字文档）。出于好奇，我想知道他们做了什么来展示可选择和可搜索的img标签。例如，当我在Chrome开发者工具中检查Google云端硬盘文档时，每个页面都是一个图像，但它不像图像那样，因为文本是可选的。另一方面，当我放大时，似乎加载了具有更高分辨率的另一图像。我认为这与scribd使用的技巧相同。

我还读到谷歌一直在改进tesseract-ocr并且谷歌图书团队帮助在Google云端硬盘中实施了OCR，但我不确定以他们的方式生成img标签的过程是什么正在这样做。

幕后发生了什么事？

谢谢！

Answer 1

我无法确定究竟发生了什么，但我会把我的发现告诉你。如果您查看驱动器中pdf文件视图的HTML代码，您会发现类似的内容。

<div id="page-pane" class="">
   <div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
      <div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane">
            <div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
            <div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
            <div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
         </div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane"></div>
         <img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=800" />
         <p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
      </div>
   </div>

在highlight-pane（pdf的第0页）中有四个img div和一个2h.page.0 div。 img div显示您谈论的图像。这只是一个简单的图像，这里没有OCR。您提到的所选文本来自第二个highlight-pane，当您在图像上拖动一个框时，它会动态添加div。第二个highlight-pane内的三个div表示所选文本（对应于所选文本的三行）。

访问页面时会发生以下情况。

从存储在驱动器中的pdf查看页面图像。
您在页面上选择了一些内容。您创建一个dragbox。
选择会触发在pdf上运行OCR的javascript（可能已经计算出OCR输出）。
OCR的输出被添加到highlight-pane div

Answer 2

OCR有两种基本方法：矩阵匹配和功能   萃取。识别字符的两种方法，矩阵匹配   更简单，更常见。

Matrix匹配比较OCR扫描仪看作字符的内容   字符矩阵或模板库。当图像匹配时   在给定级别内的这些规定的点阵矩阵之一   相似性，计算机将图像标记为相应的ASCII   字符。

特征提取是OCR，没有严格匹配规定   模板。也称为智能字符识别（ICR），或   拓扑特征分析，这种方法因计算机的不同而有所不同   智能“由制造商应用。计算机寻找   一般特征，如开放区域，封闭形状，对角线，   线路交叉口等。这种方法比它更通用   矩阵匹配。当OCR遇到a时，矩阵匹配效果最佳   类型风格有限的曲目，内部变化很小或没有变化   每种风格。字符不太可预测，功能或   地形分析是优越的。

如果您想了解更多信息，请转到：http://www.dataid.com/aboutocr.htm

OCR如何在Google云端硬盘中运行？

2 个答案: