用C#阅读PDF文本图像

时间:2012-07-13 10:31:01

标签: c# .net image pdf text

我需要阅读pdf文件并需要转换为HTML。目前我正在使用iTextsharp来阅读PDF。是否有任何带有阅读pdf文件的正确文档的dll。

由于

2 个答案:

答案 0 :(得分:0)

ITextSharp相当不错并且很容易实现。以下是一个小例子,它读取pdf并将文本放入一个字符串中,然后打印到webforms页面上的标签:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace pdfreadertest
{
    public partial class _Default : System.Web.UI.Page
    {
        protected void Page_Load(object sender, EventArgs e)
        {
            GetTextFromPDFFile(@"c:\example.pdf", 1);
        }

        public void GetTextFromPDFFile(string pdfFile, int pageNumber)
        {
            // Call the reader to read the pdf file
            PdfReader pdfReader = new PdfReader(pdfFile);

            // Extract the text from the pdf reader and put into a string
            string pdfText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber);

            // Try and close the reader
            try
            {
                pdfReader.Close();
            }
            catch{ }

            // Put the string (pdf text) into a label to display on page
            this.lblPdfText.Text = pdfText;
        }
    }
}

希望有所帮助。

答案 1 :(得分:-1)

我认为iTextSharp是最流行的之一,尽管还有其他一些类似的库 iText.Net,PDF夏普,夏普PDF等 谷歌,你会发现很多。我使用过iTextSharp,我喜欢它。