我正在尝试读取.pdf文件并将其转换为文本,以便我可以解析它(w / Scanner
)。
当我打印字符串时,它会显示多行。但是当我将它写入.txt文件时我只能得到一个。
我是否需要格式化字符串以使其保持多行?
PDFReader来自itext-5.4.2;这会有所作为吗?
public PDFConverter(String INPUTFILE) throws Exception {
PdfReader reader = new PdfReader(INPUTFILE);
String str = PdfTextExtractor.getTextFromPage(reader, 1);
System.out.println(str); //here we get multiple lines
String savename = INPUTFILE.replace(".pdf", ".txt");
PrintWriter writer = new PrintWriter(savename);
writer.println(str); // here we get only one???
writer.close();
}