我正在使用PDFBox将pdf文件转换为txt文件。我从PDF文件中获取文本。
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
writePDFFileToTextFile(parsedText, textFilePath);
} catch (Exception e) {
//System.out.println("An exception occured in parsing the PDF Document.");
log.error(e.toString());
textFilePath = null;
} finally {
try {
if (cosDoc != null) {
cosDoc.close();
}
if (pdDoc != null) {
pdDoc.close();
}
} catch (Exception ex) {
log.error(ex.toString());
}
}
但我想要格式化相关信息,如粗体,斜体,字体大小,段落等。
我可以使用PDFBox获取这些信息吗? 如果不是..我应该使用哪种API?