使用PDFbox从pdf文件导出特定字符串

时间:2014-01-23 14:12:31

标签: java string pdf extract pdfbox

我使用此代码提取pdf文件的文本并保存到txt文件中:

import java.io.*;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.util.*;

public class PDFtest {

 public static void main(String[] args){
 PDDocument pd;
 BufferedWriter wr;

 try {
         File input = new File("C:\\Users\\User\\Downloads\\1212.pdf");
         File output = new File("C:\\Users\\User\\Downloads\\parse.txt"); 
         pd = PDDocument.load(input);
         System.out.println(pd.getNumberOfPages());
         System.out.println(pd.isEncrypted());
         PDFTextStripper stripper = new PDFTextStripper();
         stripper.setStartPage( 1 );
         stripper.setEndPage( 4 );
         wr = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output)));
         stripper.writeText(pd, wr);
         if (pd != null) {
             pd.close();
         }

        wr.close();
 } catch (Exception e){
         e.printStackTrace();
        } 
     }
}

我想从pdf文件中提取特定字符串。例如,pdf文件包含以下文本:

  

Unicode Converter使您可以轻松地将Unicode字符转换为   他们的Unicode和十进制表示。

     

当您在下面的其中一个文本框中输入时,其他框就是   在飞行中转换。

     

Unicode转换器不会自动在之间添加空格   转换后的价值您可以使用添加空格按钮来分隔   Unicode字符,以便转换后的值也将被分开   彼此。

     

除非使用空格复选框,否则不会转换空白字符   检查。

假设我想提取字符串:

  

Unicode Converter使您可以轻松地将Unicode字符转换为   他们的Unicode和十进制表示。

  

Unicode转换器不会自动在之间添加空格   转换后的价值您可以使用添加空格按钮来分隔   Unicode字符,以便转换后的值也将被分开   彼此。

任何人都可以提供任何帮助吗?

0 个答案:

没有答案