Question

我使用此代码提取pdf文件的文本并保存到txt文件中：

import java.io.*;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.util.*;

public class PDFtest {

 public static void main(String[] args){
 PDDocument pd;
 BufferedWriter wr;

 try {
         File input = new File("C:\\Users\\User\\Downloads\\1212.pdf");
         File output = new File("C:\\Users\\User\\Downloads\\parse.txt"); 
         pd = PDDocument.load(input);
         System.out.println(pd.getNumberOfPages());
         System.out.println(pd.isEncrypted());
         PDFTextStripper stripper = new PDFTextStripper();
         stripper.setStartPage( 1 );
         stripper.setEndPage( 4 );
         wr = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output)));
         stripper.writeText(pd, wr);
         if (pd != null) {
             pd.close();
         }

        wr.close();
 } catch (Exception e){
         e.printStackTrace();
        } 
     }
}

我想从pdf文件中提取特定字符串。例如，pdf文件包含以下文本：

Unicode Converter使您可以轻松地将Unicode字符转换为   他们的Unicode和十进制表示。

当您在下面的其中一个文本框中输入时，其他框就是   在飞行中转换。

Unicode转换器不会自动在之间添加空格   转换后的价值您可以使用添加空格按钮来分隔   Unicode字符，以便转换后的值也将被分开   彼此。

除非使用空格复选框，否则不会转换空白字符   检查。

假设我想提取字符串：

Unicode Converter使您可以轻松地将Unicode字符转换为他们的Unicode和十进制表示。

和

Unicode转换器不会自动在之间添加空格转换后的价值您可以使用添加空格按钮来分隔 Unicode字符，以便转换后的值也将被分开彼此。

任何人都可以提供任何帮助吗？

使用PDFbox从pdf文件导出特定字符串

0 个答案: