如何使用c#.net将pdf文件转换为文本文件

时间:2010-03-10 06:30:39

标签: c# pdf

目前我一直在使用以下代码,我正在使用pdfbox中的一些dll文件

        FileInfo file = new FileInfo("c://aa.pdf");

        PDDocument doc = PDDocument.load(file.FullName);

        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText (doc);
        richTextBox1.Text = qq;

使用此代码,我可以获取文本文件,但不能以正确的格式plz给我一些想法

2 个答案:

答案 0 :(得分:1)

从pdf文件中提取文本绝非易事。

引用iTextSharp教程。

  

“pdf格式只是一个画布   文本和图形没有放置   任何结构信息。因此   a中没有任何'iText-objects'   PDF文件。在每个页面中都会有   可能是一些'字符串',但是   你不能重建一个短语或一个   段落使用这些字符串。那里   可能是画了很多行,   但是你无法检索一个Table对象   基于这些线。简而言之:   解析PDF文件的内容是   用iText是不可能的。“

有几个商业应用声称能够做到这一点。警告Emptor。

还有一个名为Poppler http://poppler.freedesktop.org/的免费软件库,由GNOME和KDE的pdf查看器使用。它有一个名为pdftotext()的函数,但我没有它的经验。这可能是您最好的免费选择。

答案 1 :(得分:1)

有一篇博客文章解释了http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text

中PDF文本提取的问题