我使用此代码提取pdf文件的文本并保存到txt文件中:
import java.io.*;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.util.*;
public class PDFtest {
public static void main(String[] args){
PDDocument pd;
BufferedWriter wr;
try {
File input = new File("C:\\Users\\User\\Downloads\\1212.pdf");
File output = new File("C:\\Users\\User\\Downloads\\parse.txt");
pd = PDDocument.load(input);
System.out.println(pd.getNumberOfPages());
System.out.println(pd.isEncrypted());
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage( 1 );
stripper.setEndPage( 4 );
wr = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output)));
stripper.writeText(pd, wr);
if (pd != null) {
pd.close();
}
wr.close();
} catch (Exception e){
e.printStackTrace();
}
}
}
我想从pdf文件中提取特定字符串。例如,pdf文件包含以下文本:
Unicode Converter使您可以轻松地将Unicode字符转换为 他们的Unicode和十进制表示。
当您在下面的其中一个文本框中输入时,其他框就是 在飞行中转换。
Unicode转换器不会自动在之间添加空格 转换后的价值您可以使用添加空格按钮来分隔 Unicode字符,以便转换后的值也将被分开 彼此。
除非使用空格复选框,否则不会转换空白字符 检查。
假设我想提取字符串:
Unicode Converter使您可以轻松地将Unicode字符转换为 他们的Unicode和十进制表示。
和
Unicode转换器不会自动在之间添加空格 转换后的价值您可以使用添加空格按钮来分隔 Unicode字符,以便转换后的值也将被分开 彼此。
任何人都可以提供任何帮助吗?