如何判断特定字体是否包含PDF :: API2中的特定字符

时间:2012-02-21 14:10:53

标签: perl pdf unicode fonts true-type-fonts

我在Perl应用程序中使用PDF::API2来嵌入OCR 在相应图像后面输出,允许搜索生成的PDF作为OCR 可以使用pdftotext提取输出。

目前,只要应用程序看到非ASCII字符 在OCR输出中,它从PDF核心字体切换到TTF。但是,这个 真的很酷,因为核心字体包括大多数西欧 字符。 TTF仅适用于希腊语,俄语,日语, 等

如何判断特定字体是否包含特定字体 字符(包括CMAP表,以便提取 pdftotext有效吗?

1 个答案:

答案 0 :(得分:1)

您是否尝试过字形特定的方法?

http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS

如果做错了,可能会渲染字形(到一个单独的文档)并测量它?