Tika PDF阅读器在单词中插入奇怪的间距(连字符)

时间:2016-05-31 10:55:24

标签: java pdf apache-tika

我正在使用TIKA java库来阅读一些PDF的内容,它似乎插入了一些奇怪的(连字符)间距。例如:

  

关于部分船舶工人船的年龄表   (PRM)系统可以作为宠物进行广告服装

我尝试使用pdftotext命令行实用程序从相同的PDF中提取文本,它正确地提取文本:

  

建立综合的合作伙伴关系管理   (PRM)系统可以解决几个方面的问题

有人知道为什么TIKA会以这种方式行事以及修复它的任何提示吗?

祝你好运, 奥古斯托

1 个答案:

答案 0 :(得分:0)

PDFBox Jira中存在跟踪问题。其描述符合所描述的行为:https://issues.apache.org/jira/browse/PDFBOX-2425