应用错误收集

我正在尝试从捷克语pdf中提取一些文本，但对于某些字符，它会返回乱码，例如......或者ě或č等......

最初我使用iText 2.1.7并且失败了，所以我切换到iText 5.5.0但仍然失败......

我试图破解开源代码，这就是它所显示的内容：

例如，PdfString string由单个'ě'组成，getByte方法返回单长byte[]，其整数值为-85，而iText将其转换为Unicode 256-85 = 171并返回'«'

类似地，对于由单个'......'组成的PdfString string，它给出整数值-84并且iText将其转换为Unicode 172 ='¬' （实际上我不知道这怎么可能，因为ě和......永远不会在角色表中一起......）

此行为不是通用的，getByte方法的整数沿着pdf更改。

的第4页的开头

有没有解决这个问题？我阅读了许多涉及“创建捷克语PDF”并使用类似IDENTITY_H字体的线程，但我只想提取文本。