应用错误收集

如何使用java和PDFBox从PDF获取字符的Unicode

时间：2012-09-25 06:10:28

标签： java pdf unicode pdfbox

我使用Apache PDFBox和Java来解析PDF并从中获取所有信息。提取文本仅适用于英语。对于其他语言，我只获得一些特殊字符。例如，提取阿拉伯字符Ô将给出字符串：“？on printing。当我将计算机的”区域和语言“从英语更改为阿拉伯语时工作正常。所以我认为提取字符的Unicode将解决这个问题问题。请帮我从PDF中获取字符的Unicode或建议我解决这个问题的一些解决方案。

2 个答案:

答案 0 :(得分：2)

试试changing the Java system locale。从Java程序中，这应该等同于更改操作系统设置。

答案 1 :(得分：0)

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java

private String escape（String chars）将字符转换为unicode。

如何使用java和PDFBox从PDF获取字符的Unicode
如何使用PDFBox获取PDF表单中的字段类型
如何使用PDFBOX从PDF表格中获取当前页码？
如何使用pdfbox获取PDF表单文本字段的内容？
如何在PDF上打印不寻常的字符（使用pdfbox）
如何使用PDFBox API
使用PDFBox从PDF中读取一些unicode字符的问题
使用pdfbox从pdf中提取字符坐标
如何使用Java和pdfbox从pdf获取垂直字符串的坐标？
如何从pdf获取底纹填充值？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？