简短版本:请给我一个建议,以便发布一个问题,帮助我使用JAVA编程将PDF转换为文本。
详细说明: 我一直在努力尝试使用JAVA将PDF更改为文本文件,并尽可能保持格式尽可能接近PDF。我目前一直在使用一个单独的,免费的第三方程序进行转换,然后我制作的JAVA程序完成了我想做的一切。我问了很多地方,大多数人推荐PDFBox不起作用。所有PDFBox都是Adobe Read X会做的事情,这会造成一大堆文字乱七八糟。我尝试了很多东西,花了很多时间在这上面。我现在要做的是分享我试图转换的PDF中的一个,希望有人可以帮助我使用一些有助于转换它的JAVA代码。我只是得到了一次分享这个旧文件的许可(即使你99%肯定在其他几个地方分享文件也没问题)我希望在最有效的地方发布这个问题。
答案 0 :(得分:0)
简短的版本(并实际回答我的实际问题) 答案是:link
特别感谢@TilmanHausherr,他通过关注我的更新并帮助我做了更多。
Longer version.
我仍然有一些格式问题,但我想我可以自己找到其余部分。至于我要求使用Java正确格式化文档,我已完成了。至于问题被问到这个文件的格式是正确的,它看起来不像我使用过的其他东西那么漂亮。
之后,我被卡住了,因为对话后格式化不正确。我以前曾经问过,大多数人都说要解释起来太难了。最后,我不得不重新学习如何附加PDFBox,解决其他人遇到的常见问题,以及来自TilmanHausherr的一行代码,如评论所示。
当我开始这个项目时,我必须学习如何让PDFBox与我的IDE一起工作以及如何安排库。等等。然后我继续找到一些使用PDFBox转换PDF文本的旧谷歌代码。我无法共享用于转换的代码,但搜索原始海报的工作大约需要4到5分钟。为了让它能够工作,我还需要对他们的代码进行一些修改,但我只是按照我的IDE提示:Eclipse。
我使用此代码写入文本文件而不是Formatter:
String textFromMain = textForAll;
try( PrintWriter out = new PrintWriter( "text.txt" ) ) {
out.println( textFromMain );
}