如何从doc或pdf文件中读取特定页面。

时间:2014-03-19 10:20:29

标签: java pdf file-io

我有一些.doc和.pdf文件的文档,我的要求是从运行时提供的.doc或.pdf文件中读取特定页面。这可以通过逐页阅读来实现。如果我编号,在每个页面的末尾。但有些我得到的文件编号不是他们的,所以我该怎么做?

是他们的任何api或任何其他逻辑,以便我可以解决这个问题?

你好 我有.DOC文件,但我不应该读取整个文件,而是给我一个页码。 因此我只能从doc文件中读取该特定页面。 我正在使用apache.poi api。

     file = new File("c://doc/assignment/afternoon_24.doc");  
     FileInputStream fis=new FileInputStream(file.getAbsolutePath());  

我需要阅读此文件的页面X并写入文本文件吗?

1 个答案:

答案 0 :(得分:1)

我想有一个误解:你不能简单地将DOC(或PDF)作为输入流读取并跳过页面(除非你知道并评估文件格式)。 两个文件都有一种格式(将格式和元信息编码为一些二进制格式)。只需尝试在记事本或其他纯文本编辑器中打开PDF。你会看到它。

正如mkl建议的那样:要访问DOC(或PDF)的内容,您需要一个可以处理该文件格式的库。对于Microsoft Office格式,例如有开源库Apache POI,对于PDF,例如PDF boxa full thread about it。每种格式都有不同的库,具有不同的功能和许可模式。