我在Perl应用程序中使用PDF::API2
来嵌入OCR
在相应图像后面输出,允许搜索生成的PDF作为OCR
可以使用pdftotext
提取输出。
目前,只要应用程序看到非ASCII字符 在OCR输出中,它从PDF核心字体切换到TTF。但是,这个 真的很酷,因为核心字体包括大多数西欧 字符。 TTF仅适用于希腊语,俄语,日语, 等
如何判断特定字体是否包含特定字体
字符(包括CMAP表,以便提取
pdftotext
有效吗?
答案 0 :(得分:1)
您是否尝试过字形特定的方法?
http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS
如果做错了,可能会渲染字形(到一个单独的文档)并测量它?