应用错误收集

在PDF中提取字体及其对应的cmap

时间：2012-11-25 04:04:33

标签： pdf

我尝试了几种从pdf中提取字体的方法。 C＃中的fontforge，mupdf，pdfparser以及一些pythone脚本。但我只是混淆了获取一对字体并将其cmap嵌入pdf中。请指导我正确的方法，我将获得精确的字体对及其cmaps。

1 个答案:

答案 0 :(得分：1)

正如我在第一篇评论中所提到的，使用iText or iTextSharp或任何其他允许您访问低级PDF对象的库应该很容易。

如果是iText（夏普），ListUsedFonts.java和ListUsedFonts.cs可以为您提供起点;他们检查PDF文件中的所有字体词典，可通过至少一页访问。而不是这些示例的简单输出，只需导出您需要的所有信息。为此，ISO 32000-1:2008应该是您的参考指南。