我尝试了几种从pdf中提取字体的方法。 C#中的fontforge,mupdf,pdfparser以及一些pythone脚本。但我只是混淆了获取一对字体并将其cmap嵌入pdf中。请指导我正确的方法,我将获得精确的字体对及其cmaps。
答案 0 :(得分:1)
正如我在第一篇评论中所提到的,使用iText or iTextSharp或任何其他允许您访问低级PDF对象的库应该很容易。
如果是iText(夏普),ListUsedFonts.java和ListUsedFonts.cs可以为您提供起点;他们检查PDF文件中的所有字体词典,可通过至少一页访问。而不是这些示例的简单输出,只需导出您需要的所有信息。为此,ISO 32000-1:2008应该是您的参考指南。