我需要阅读pdf文件并需要转换为HTML。目前我正在使用iTextsharp来阅读PDF。是否有任何带有阅读pdf文件的正确文档的dll。
由于
答案 0 :(得分:0)
ITextSharp相当不错并且很容易实现。以下是一个小例子,它读取pdf并将文本放入一个字符串中,然后打印到webforms页面上的标签:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
namespace pdfreadertest
{
public partial class _Default : System.Web.UI.Page
{
protected void Page_Load(object sender, EventArgs e)
{
GetTextFromPDFFile(@"c:\example.pdf", 1);
}
public void GetTextFromPDFFile(string pdfFile, int pageNumber)
{
// Call the reader to read the pdf file
PdfReader pdfReader = new PdfReader(pdfFile);
// Extract the text from the pdf reader and put into a string
string pdfText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber);
// Try and close the reader
try
{
pdfReader.Close();
}
catch{ }
// Put the string (pdf text) into a label to display on page
this.lblPdfText.Text = pdfText;
}
}
}
希望有所帮助。
答案 1 :(得分:-1)
我认为iTextSharp是最流行的之一,尽管还有其他一些类似的库 iText.Net,PDF夏普,夏普PDF等 谷歌,你会发现很多。我使用过iTextSharp,我喜欢它。