使用pdfbox从pdf中提取文本时出现错误的字符编码

时间:2016-03-02 11:48:47

标签: character-encoding pdfbox

最近,我必须将pdf索引到ElasticSearch并使用pdfbox从pdf中提取文本,但是我输错了这样的字符

Ýëĭ2ĈjŬj§ė¥ 
1 ŋ?nij"2$ 2016£ 2Ú 5Õ,”Òªj§?ně#ij"2ě
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê    
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿    ĿS¿ ĿS
Õ¿  ĿSÖ¿  eöĿS&غĨĘ
http://www.sse.com.cnLćĈ
A$j§Ýëĭ2ĈŘĐ

我的代码与此页面here完全相同。我尝试从0.8.x到2.0.x的pdfbox lib版本,但它仍然无法工作。

任何帮助或建议都将不胜感激!

1 个答案:

答案 0 :(得分:0)

我从@Tilman评论中得到答案。

  

请参阅pdfbox.apache.org/1.8/faq.html#notext以及下面的答案。