Question

目前我一直在使用以下代码，我正在使用pdfbox中的一些dll文件

        FileInfo file = new FileInfo("c://aa.pdf");

        PDDocument doc = PDDocument.load(file.FullName);

        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText (doc);
        richTextBox1.Text = qq;

使用此代码，我可以获取文本文件，但不能以正确的格式plz给我一些想法

Answer 1

从pdf文件中提取文本绝非易事。

引用iTextSharp教程。

“pdf格式只是一个画布文本和图形没有放置任何结构信息。因此 a中没有任何'iText-objects' PDF文件。在每个页面中都会有可能是一些'字符串'，但是你不能重建一个短语或一个段落使用这些字符串。那里可能是画了很多行，但是你无法检索一个Table对象基于这些线。简而言之：解析PDF文件的内容是用iText是不可能的。“

有几个商业应用声称能够做到这一点。警告Emptor。

还有一个名为Poppler http://poppler.freedesktop.org/的免费软件库，由GNOME和KDE的pdf查看器使用。它有一个名为pdftotext（）的函数，但我没有它的经验。这可能是您最好的免费选择。

Answer 2

有一篇博客文章解释了http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text

中PDF文本提取的问题

如何使用c＃.net将pdf文件转换为文本文件

2 个答案: