应用错误收集

几乎所有用日语编写的pdf文件，都得到了Apache Tika（1.7）和Apache PDFBox（1.8.8）的正确文本。现在我遇到了一个pdf文件的问题，由于商业原因，我无法在此处上传。

问题

段落中的所有日文字符变为＆＃34;？＆＃34;，但在其他段落中，日文字符是正确的。在任何情况下，ASCII字符都是正确的。

PDF文件

PDF文档中的所有日文字符在我的Windows7桌面上的Adobe Acrobat中似乎都是正确的。从Adobe Acrobat属性对话框中，PDF文档有几种日文字体信息。我不知道是谁/如何制作这个文件。

MS-Mincho类型：TrueType（CID）＆lt; - 几
HeiseiMin-W3类型：类型1（CID）编码：UniJIS-UCS2-HW-H实际字体：KozMinPr6N-常规实际字体类型：类型1（CID）
MSMincho类型：TrueType（CID）编码：UniJIS-UCS2-H实际字体：MS明朝实际字体类型：TrueType

PDF转换器：Acrobat Distiller 7.0（Windows） PDF版本：1.6（Acrobat 7.x）

书院

＆＃34;？＆＃34; s由PDFStreamEngine（第492行）制成，由PDType0Font中的查找失败引起（第202行）。在这种情况下，cmap（PDFont类）的cmapName是＆＃34; UniJIS-UCS2-HW-H＆＃34;。仔细查看CMap实现，isInCodeSpaceRanges方法在应该为true时返回true。最后，因为char2CIDMappings没有条目而range.map失败在CMap中（第174行），lookupCID失败。参数char []的值如[48，-120,48，-118，...]似乎是Unicode中的正确代码点...

有没有解决方法？感谢。

PDFBox输出问号而不是一些日文字符

问题

PDF文件

书院

0 个答案: