Itextsharp Pdf to Text提取

时间:2013-11-23 07:19:52

标签: pdf itextsharp

如果我保存上传的pdf文件,它会抛出一个损坏的格式msg.Thing就是我删除 下面的代码  string resumetext = ParsePdf(resumedoc.PostedFile.InputStream);         Pdf文件保存完好。我可以打开它。 如果我添加上面的代码,Pdf文件将保存为损坏的格式。

我可以在两种情况下完美地阅读文本。请帮我解决问题。

 string ext = System.IO.Path.GetExtension(FileUp.PostedFile.FileName);
        if (ext == ".pdf")
        {
    //resumedoc is input type='file' 
            string resumetext = ParsePdf(resumedoc.PostedFile.InputStream); 
            string Filename = "dddd" + ext;
            string FilePath =  "E:\\temp\\" + Filename;
            FileUp.PostedFile.SaveAs(FilePath);//Problem arises only here
            Response.Write("Uploaded");

}

public string ParsePdf(Stream inFileName)
{
    StringBuilder text = new StringBuilder();
    PdfReader pdfReader = new PdfReader(inFileName);
    for (int page = 1; page <= pdfReader.NumberOfPages; page++)
    {
        try
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            //ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
            text.Append(System.Environment.NewLine);
            currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
            text.Append(currentText);
        }
        catch { }

    }
    return text.ToString();
}

1 个答案:

答案 0 :(得分:1)

我的猜测是,通过读取流,您正在移动流的当前位置,并且正在预期位置为零的SaveAs()。解析之后但在写之前尝试:

FileUp.PostedFile.InputStream.Seek(0, SeekOrigin.Begin);