我需要在Visual Studio 2010中使用C#创建一个winform,在目录中搜索pdf文件,然后在pdf中搜索某些文本。例如,用户可以在winform中输入“John Smith”。该程序需要搜索给定目录中的所有pdf文本“John Smith”。我目前没有Adobe Acrobat,可能无法购买它或任何非免费的插件。我被告知要查看Apache Solr和Ghostscript,但是看不出它们如何在winform中使用。我已经搜索了很多并看到了很多建议,但找不到任何关于如何设置winform来搜索pdf的简单示例或教程。有人可以提供一些关于如何在winform中搜索pdf的示例代码吗?
答案 0 :(得分:3)
要搜索PDF中的某些文字,您可以使用ITextSharp库 http://sourceforge.net/projects/itextsharp/
这是一个简单的例子
var reader = new PdfReader(pdfPath);
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
//now you can search for the text from outPut.ToString();