iText 5.5.0无法提取捷克语字符

时间:2014-05-09 16:55:29

标签: java pdf unicode encoding itext

我正在尝试从捷克语pdf中提取一些文本,但对于某些字符,它会返回乱码,例如......或者ě或č等......

最初我使用iText 2.1.7并且失败了,所以我切换到iText 5.5.0但仍然失败......

我试图破解开源代码,这就是它所显示的内容:

例如,PdfString string由单个'ě'组成,getByte方法返回单长byte[],其整数值为-85,而iText将其转换为Unicode 256-85 = 171并返回'«'

类似地,对于由单个'......'组成的PdfString string,它给出整数值-84并且iText将其转换为Unicode 172 ='¬' (实际上我不知道这怎么可能,因为ě和......永远不会在角色表中一起......)

此行为不是通用的,getByte方法的整数沿着pdf更改。

以上示例来自http://www.seelrc.org:8080/grammar/pdf/stand_alone_czech.pdf

的第4页的开头

有没有解决这个问题? 我阅读了许多涉及“创建捷克语PDF”并使用类似IDENTITY_H字体的线程,但我只想提取文本。

0 个答案:

没有答案