我使用PDFBox使用perl从PDF中提取文本来调用java类。它适用于纯文本PDF。但是,如果页面中有图像,则文本格式会被破坏。只需几句话后换行。可以在http://ijeei.org/docs-13028992904f8bd9bf648f0.pdf中找到pdf的示例,并且可以在http://astrajingga.co.id/journal/docs-13028992904f8bd9bf648f0.txt中找到提取的文本。注意最后一页。如您所见,文本格式已损坏。有人有这个问题吗?我该怎么办?我只想获取PDF文件中的文本。
我正在使用PDFBox 1.1.0,FontBox 1.0.0