目前我一直在使用以下代码,我正在使用pdfbox中的一些dll文件
FileInfo file = new FileInfo("c://aa.pdf");
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText (doc);
richTextBox1.Text = qq;
使用此代码,我可以获取文本文件,但不能以正确的格式plz给我一些想法
答案 0 :(得分:1)
从pdf文件中提取文本绝非易事。
引用iTextSharp教程。
“pdf格式只是一个画布 文本和图形没有放置 任何结构信息。因此 a中没有任何'iText-objects' PDF文件。在每个页面中都会有 可能是一些'字符串',但是 你不能重建一个短语或一个 段落使用这些字符串。那里 可能是画了很多行, 但是你无法检索一个Table对象 基于这些线。简而言之: 解析PDF文件的内容是 用iText是不可能的。“
有几个商业应用声称能够做到这一点。警告Emptor。
还有一个名为Poppler http://poppler.freedesktop.org/的免费软件库,由GNOME和KDE的pdf查看器使用。它有一个名为pdftotext()的函数,但我没有它的经验。这可能是您最好的免费选择。
答案 1 :(得分:1)
有一篇博客文章解释了http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text
中PDF文本提取的问题