Question

我有一些.doc和.pdf文件的文档，我的要求是从运行时提供的.doc或.pdf文件中读取特定页面。这可以通过逐页阅读来实现。如果我编号，在每个页面的末尾。但有些我得到的文件编号不是他们的，所以我该怎么做？

是他们的任何api或任何其他逻辑，以便我可以解决这个问题？

你好我有.DOC文件，但我不应该读取整个文件，而是给我一个页码。因此我只能从doc文件中读取该特定页面。我正在使用apache.poi api。

     file = new File("c://doc/assignment/afternoon_24.doc");  
     FileInputStream fis=new FileInputStream(file.getAbsolutePath());

我需要阅读此文件的页面X并写入文本文件吗？

Answer 1

我想有一个误解：你不能简单地将DOC（或PDF）作为输入流读取并跳过页面（除非你知道并评估文件格式）。两个文件都有一种格式（将格式和元信息编码为一些二进制格式）。只需尝试在记事本或其他纯文本编辑器中打开PDF。你会看到它。

正如mkl建议的那样：要访问DOC（或PDF）的内容，您需要一个可以处理该文件格式的库。对于Microsoft Office格式，例如有开源库Apache POI，对于PDF，例如PDF box和a full thread about it。每种格式都有不同的库，具有不同的功能和许可模式。