从PDF中读取并在控制台上显示

时间:2014-10-30 09:12:01

标签: java file pdf io

我尝试从PDF文件中读取并在控制台上显示它,但它显示一些奇怪的字符,不知道它是什么。我需要从PDF文件中读取并在控制台上显示它。这是我的代码

public class JavaApplication14 {
    public static void main(String[] args) throws FileNotFoundException, IOException {
        FileReader fr = new FileReader("F:\\abc.pdf");
        char[] temp = new char[10000];
        fr.read(temp);

       System.out.println(temp); 

    }

}

2 个答案:

答案 0 :(得分:1)

您需要使用库来正确阅读PDF文档。 iTextPDFBox就是例子。

奇怪的输出是因为内容是二进制的:它还包含字体,图像,颜色,元数据......

答案 1 :(得分:-1)

此示例需要itextpdf lib。只需下载并将其放入项目的lib文件夹即可。

public class GetPDFContent {

    public static String reader(String filename) throws IOException {
        PdfReader reader = new PdfReader(filename);

        pageNum = reader.getNumberOfPages();
        for (int i=1; i< pageNum; i++) {
           String page = PdfTextExtractor.getTextFromPage(reader, i);
           System.out.println(page);
        }       
    }
}