寻找解决方法以成功地将pdf2dom转换为PDType0Font和PDType1Fonts

时间:2018-12-23 05:28:22

标签: java fonts pdfbox pdf-to-html

我们正在使用pdf2dom库将大量报纸pdf转换为html。所涉及的pdf数量每天超过5k pdf页面。

尽管我们在大多数情况下都能成功,但在大多数情况下我们无法完全转换pdf。并得到以下类型的错误-

  

字体:Helvetica被跳过,因为不支持类型“ PDType1Font”。

  

找不到字形名称的字符代码。名称:'fraction'   字形ID:'217'找不到字形名称的字符代码。名称:'fi'   字形ID:'218'找不到字形名称的字符代码。名称:“ fl”   字形ID:'219'找不到字形名称的字符代码。   名称:“ breve”字形ID:“ 220”找不到字形的字符代码   名称。名称:'dotaccent'字形ID:'221'找不到以下字符的代码   字形名称。名称:“ ring”字形ID:“ 222”

  

问题转换Bare CFF字体或字体类型不受支持   Pdf2Dom,字体:UniversLTStd-Bold异常:索引:0,大小:0类   java.lang.IndexOutOfBoundsException

  

字体:RXKFZF + * Calibri-Bold被跳过,因为类型'PDType0Font'不是   支持。

由于我们的目标是使用完整的文本和适当的格式信息(例如大小/粗体/斜体等)将pdf转换为html,并且我们可以忽略字体,因此我们正在寻找一种有效的方式来转换/替换不受支持的Type 1和Type 0字体和等效字体。

任何解决方法和指针将非常有帮助。

0 个答案:

没有答案