我们正在使用pdf2dom库将大量报纸pdf转换为html。所涉及的pdf数量每天超过5k pdf页面。
尽管我们在大多数情况下都能成功,但在大多数情况下我们无法完全转换pdf。并得到以下类型的错误-
字体:Helvetica被跳过,因为不支持类型“ PDType1Font”。
和
找不到字形名称的字符代码。名称:'fraction' 字形ID:'217'找不到字形名称的字符代码。名称:'fi' 字形ID:'218'找不到字形名称的字符代码。名称:“ fl” 字形ID:'219'找不到字形名称的字符代码。 名称:“ breve”字形ID:“ 220”找不到字形的字符代码 名称。名称:'dotaccent'字形ID:'221'找不到以下字符的代码 字形名称。名称:“ ring”字形ID:“ 222”
和
问题转换Bare CFF字体或字体类型不受支持 Pdf2Dom,字体:UniversLTStd-Bold异常:索引:0,大小:0类 java.lang.IndexOutOfBoundsException
和
字体:RXKFZF + * Calibri-Bold被跳过,因为类型'PDType0Font'不是 支持。
由于我们的目标是使用完整的文本和适当的格式信息(例如大小/粗体/斜体等)将pdf转换为html,并且我们可以忽略字体,因此我们正在寻找一种有效的方式来转换/替换不受支持的Type 1和Type 0字体和等效字体。
任何解决方法和指针将非常有帮助。