OCR如何在Google云端硬盘中运行?

时间:2013-02-10 02:46:14

标签: pdf ocr google-docs tesseract

我有noticed Google云端硬盘识别PDF格式的文字(以及其他文件,如图片和文字文档)。出于好奇,我想知道他们做了什么来展示可选择和可搜索的img标签。例如,当我在Chrome开发者工具中检查Google云端硬盘文档时,每个页面都是一个图像,但它不像图像那样,因为文本是可选的。另一方面,当我放大时,似乎加载了具有更高分辨率的另一图像。我认为这与scribd使用的技巧相同。

我还读到谷歌一直在改进tesseract-ocr并且谷歌图书团队帮助在Google云端硬盘中实施了OCR,但我不确定以他们的方式生成img标签的过程是什么正在这样做。

幕后发生了什么事?

谢谢!

2 个答案:

答案 0 :(得分:3)

我无法确定究竟发生了什么,但我会把我的发现告诉你。如果您查看驱动器中pdf文件视图的HTML代码,您会发现类似的内容。

<div id="page-pane" class="">
   <div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
      <div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane">
            <div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
            <div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
            <div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
         </div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane"></div>
         <img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=800" />
         <p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
      </div>
   </div>

highlight-pane(pdf的第0页)中有四个img div和一个2h.page.0 div。 img div显示您谈论的图像。这只是一个简单的图像,这里没有OCR。 您提到的所选文本来自第二个highlight-pane,当您在图像上拖动一个框时,它会动态添加div。第二个highlight-pane内的三个div表示所选文本(对应于所选文本的三行)。

访问页面时会发生以下情况。

  • 从存储在驱动器中的pdf查看页面图像。
  • 您在页面上选择了一些内容。您创建一个dragbox。
  • 选择会触发在pdf上运行OCR的javascript(可能已经计算出OCR输出)。
  • OCR的输出被添加到highlight-pane div
  • 中的div

答案 1 :(得分:0)

  

OCR有两种基本方法:矩阵匹配和功能   萃取。识别字符的两种方法,矩阵匹配   更简单,更常见。

     

Matrix匹配比较OCR扫描仪看作字符的内容   字符矩阵或模板库。当图像匹配时   在给定级别内的这些规定的点阵矩阵之一   相似性,计算机将图像标记为相应的ASCII   字符。

     

特征提取是OCR,没有严格匹配规定   模板。也称为智能字符识别(ICR),或   拓扑特征分析,这种方法因计算机的不同而有所不同   智能“由制造商应用。计算机寻找   一般特征,如开放区域,封闭形状,对角线,   线路交叉口等。这种方法比它更通用   矩阵匹配。当OCR遇到a时,矩阵匹配效果最佳   类型风格有限的曲目,内部变化很小或没有变化   每种风格。字符不太可预测,功能或   地形分析是优越的。

如果您想了解更多信息,请转到:http://www.dataid.com/aboutocr.htm