使用PDFBox创建PDF文本:无法获取格式信息

时间:2013-07-09 06:55:31

标签: java text converter pdfbox

我正在使用PDFBox将pdf文件转换为txt文件。我从PDF文件中获取文本。

try {
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
            writePDFFileToTextFile(parsedText, textFilePath);
        } catch (Exception e) {
            //System.out.println("An exception occured in parsing the PDF Document.");
            log.error(e.toString());
            textFilePath = null;
        } finally {
            try {
                if (cosDoc != null) {
                    cosDoc.close();
                }
                if (pdDoc != null) {
                    pdDoc.close();
                }
            } catch (Exception ex) {
                log.error(ex.toString());
            }
        }

但我想要格式化相关信息,如粗体,斜体,字体大小,段落等。

我可以使用PDFBox获取这些信息吗? 如果不是..我应该使用哪种API?

0 个答案:

没有答案