我正在使用TIKA java库来阅读一些PDF的内容,它似乎插入了一些奇怪的(连字符)间距。例如:
关于部分船舶工人船的年龄表 (PRM)系统可以作为宠物进行广告服装
我尝试使用pdftotext
命令行实用程序从相同的PDF中提取文本,它正确地提取文本:
建立综合的合作伙伴关系管理 (PRM)系统可以解决几个方面的问题
有人知道为什么TIKA会以这种方式行事以及修复它的任何提示吗?
祝你好运, 奥古斯托
答案 0 :(得分:0)
PDFBox Jira中存在跟踪问题。其描述符合所描述的行为:https://issues.apache.org/jira/browse/PDFBOX-2425