我想要一个用户以TIFF格式查看文档图像的应用程序。
如果页面上出现“foo”和“bar”字样。并且在仅包含“foo”的图像上进行选择,然后我只想选择单词“foo”。
是否有一种格式可以存储文本的位置和图像的文本?
答案 0 :(得分:2)
由于您了解可搜索的PDF,并且它完美地实现了您的建议,我认为有一些原因导致您无法使用它。如果没有,您应该使用PDF - 格式支持混合内容并覆盖它们。您的用户可能拥有的所有观看者都将了解如何处理图片下方的文字。
TIFF格式不直接支持此功能,但如果您正在制作查看器,并且只需要在那里工作,那么您可以尝试将文本和位置存储在自定义标记中。
然后,您的查看者需要阅读此标记,解释鼠标位置,并查找图像上正在选择的文本。没有其他观众会支持你的文字标签,但他们会显示TIFF。
对于这些机制中的任何一种,您将需要OCR以及将数据编码为PDF或自定义TIFF标记的方法。对于开源OCR,请查看Google的Tesseract。
免责声明:我在Atalasoft工作。我们的成像SDK DotImage具有OCR附加组件,可以生成可搜索的PDF,还可以添加和编辑TIFF标签。