我的要求是使用IBM Worklight 6.1 开发一个应用程序,该应用程序将从Web服务器获取该文件,并在不下载的情况下将其显示给用户。
为此我做了以下步骤: -
我按照以下链接生成JAVA代码:
http://www.ehow.com/how_6582916_read-pdf-file-java.html
代码如下: -
public static String sendPDF(){
PDFTextParser pdf = new PDFTextParser("path to pdf in tomcat");
return pdf.getParsedText();
}
现在的问题是: -
使用此路径“tomcat中pdf文件的路径”,pdfbox无法访问该文件。我正在尝试使用servletcontext,所以我包含了servlet-api.jar。我仍然无法访问pdf文件。我需要一种方法来访问该文件。提前致谢
答案 0 :(得分:1)
使用PDFBox打开PDF网址的正确方法如下:
PDDocument doc = PDDocument.load(new URL("http://www.host.com/xxx.pdf").openStream());
更好的是使用非顺序解析器:
PDDocument doc = PDDocument.loadNonSeq(new URL("http://www.host.com/xxx.pdf").openStream(), null);
要了解有关文本提取的更多信息,请查看ExtractImages的源代码,您将找到here。