几乎所有用日语编写的pdf文件,都得到了Apache Tika(1.7)和Apache PDFBox(1.8.8)的正确文本。 现在我遇到了一个pdf文件的问题,由于商业原因,我无法在此处上传。
段落中的所有日文字符变为"?",但在其他段落中,日文字符是正确的。 在任何情况下,ASCII字符都是正确的。
PDF文档中的所有日文字符在我的Windows7桌面上的Adobe Acrobat中似乎都是正确的。 从Adobe Acrobat属性对话框中,PDF文档有几种日文字体信息。我不知道是谁/如何制作这个文件。
PDF转换器:Acrobat Distiller 7.0(Windows) PDF版本:1.6(Acrobat 7.x)
"?" s由PDFStreamEngine(第492行)制成,由PDType0Font中的查找失败引起(第202行)。 在这种情况下,cmap(PDFont类)的cmapName是" UniJIS-UCS2-HW-H"。 仔细查看CMap实现,isInCodeSpaceRanges方法在应该为true时返回true。 最后,因为char2CIDMappings没有条目而range.map失败在CMap中(第174行),lookupCID失败。 参数char []的值如[48,-120,48,-118,...]似乎是Unicode中的正确代码点...
有没有解决方法?感谢。