我有noticed Google云端硬盘识别PDF格式的文字(以及其他文件,如图片和文字文档)。出于好奇,我想知道他们做了什么来展示可选择和可搜索的img标签。例如,当我在Chrome开发者工具中检查Google云端硬盘文档时,每个页面都是一个图像,但它不像图像那样,因为文本是可选的。另一方面,当我放大时,似乎加载了具有更高分辨率的另一图像。我认为这与scribd使用的技巧相同。
我还读到谷歌一直在改进tesseract-ocr并且谷歌图书团队帮助在Google云端硬盘中实施了OCR,但我不确定以他们的方式生成img标签的过程是什么正在这样做。
幕后发生了什么事?
谢谢!
答案 0 :(得分:3)
我无法确定究竟发生了什么,但我会把我的发现告诉你。如果您查看驱动器中pdf文件视图的HTML代码,您会发现类似的内容。
<div id="page-pane" class="">
<div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
<div>
<div class="highlight-pane"></div>
<div class="highlight-pane">
<div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
<div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
<div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
</div>
<div class="highlight-pane"></div>
<div class="highlight-pane"></div>
<img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&w=800" />
<p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
</div>
</div>
在highlight-pane
(pdf的第0页)中有四个img
div和一个2h.page.0
div。 img
div显示您谈论的图像。这只是一个简单的图像,这里没有OCR。
您提到的所选文本来自第二个highlight-pane
,当您在图像上拖动一个框时,它会动态添加div。第二个highlight-pane
内的三个div表示所选文本(对应于所选文本的三行)。
访问页面时会发生以下情况。
highlight-pane
div 答案 1 :(得分:0)
OCR有两种基本方法:矩阵匹配和功能 萃取。识别字符的两种方法,矩阵匹配 更简单,更常见。
Matrix匹配比较OCR扫描仪看作字符的内容 字符矩阵或模板库。当图像匹配时 在给定级别内的这些规定的点阵矩阵之一 相似性,计算机将图像标记为相应的ASCII 字符。
特征提取是OCR,没有严格匹配规定 模板。也称为智能字符识别(ICR),或 拓扑特征分析,这种方法因计算机的不同而有所不同 智能“由制造商应用。计算机寻找 一般特征,如开放区域,封闭形状,对角线, 线路交叉口等。这种方法比它更通用 矩阵匹配。当OCR遇到a时,矩阵匹配效果最佳 类型风格有限的曲目,内部变化很小或没有变化 每种风格。字符不太可预测,功能或 地形分析是优越的。
如果您想了解更多信息,请转到:http://www.dataid.com/aboutocr.htm