我正在尝试从捷克语pdf中提取一些文本,但对于某些字符,它会返回乱码,例如......或者ě或č等......
最初我使用iText 2.1.7并且失败了,所以我切换到iText 5.5.0但仍然失败......
我试图破解开源代码,这就是它所显示的内容:
例如,PdfString string
由单个'ě'组成,getByte
方法返回单长byte[]
,其整数值为-85,而iText将其转换为Unicode 256-85 = 171并返回'«'
类似地,对于由单个'......'组成的PdfString string
,它给出整数值-84并且iText将其转换为Unicode 172 ='¬'
(实际上我不知道这怎么可能,因为ě和......永远不会在角色表中一起......)
此行为不是通用的,getByte
方法的整数沿着pdf更改。
以上示例来自http://www.seelrc.org:8080/grammar/pdf/stand_alone_czech.pdf
的第4页的开头有没有解决这个问题? 我阅读了许多涉及“创建捷克语PDF”并使用类似IDENTITY_H字体的线程,但我只想提取文本。