应用错误收集

我们正在使用pdf2dom库将大量报纸pdf转换为html。所涉及的pdf数量每天超过5k pdf页面。

尽管我们在大多数情况下都能成功，但在大多数情况下我们无法完全转换pdf。并得到以下类型的错误-

字体：Helvetica被跳过，因为不支持类型“ PDType1Font”。

和

找不到字形名称的字符代码。名称：'fraction' 字形ID：'217'找不到字形名称的字符代码。名称：'fi' 字形ID：'218'找不到字形名称的字符代码。名称：“ fl” 字形ID：'219'找不到字形名称的字符代码。名称：“ breve”字形ID：“ 220”找不到字形的字符代码名称。名称：'dotaccent'字形ID：'221'找不到以下字符的代码字形名称。名称：“ ring”字形ID：“ 222”

和

问题转换Bare CFF字体或字体类型不受支持 Pdf2Dom，字体：UniversLTStd-Bold异常：索引：0，大小：0类 java.lang.IndexOutOfBoundsException

和

字体：RXKFZF + * Calibri-Bold被跳过，因为类型'PDType0Font'不是支持。

由于我们的目标是使用完整的文本和适当的格式信息（例如大小/粗体/斜体等）将pdf转换为html，并且我们可以忽略字体，因此我们正在寻找一种有效的方式来转换/替换不受支持的Type 1和Type 0字体和等效字体。

任何解决方法和指针将非常有帮助。

寻找解决方法以成功地将pdf2dom转换为PDType0Font和PDType1Fonts

0 个答案: