我试图从PDF文件中提取文字:http://www.filedropper.com/copy_1,但我从网页获得的文字不到一半。 我使用的是iTextSharp:
PdfReader reader = new PdfReader(file);
string currentText = PdfTextExtractor.GetTextFromPage(reader, 1);
我也使用了SimpleTextExtractionStrategy而不是默认的LocationTextExtractionStrategy:
PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())
该文件最初是从Microsoft Reporting Service(我无法访问)生成的,并且我已经提取了一个页面来测试文本提取。
任何人都可以提供帮助吗?
答案 0 :(得分:-1)
试试这个: -
PdfReader reader = new PdfReader(file);
StringBuilder currentText= new StringBuilder();
for (int i= 1; i <= reader.NumberOfPages; i++)
{
currentText.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}
然后在“currentText”上执行您想要的任何操作。