ITextsharp PDFParser将文本提取到文本框

时间:2013-11-15 07:53:35

标签: c# asp.net itextsharp

我想将文件从PDF提取到asp.net中的文本框,我尝试了project here

中的代码

我已成功从PDF中提取文本,但结果首先导出到.txt文件,结果没有任何行,并且单词之间没有任何空格。

如果这是PDF文本的示例

Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World

结果将是这样的

  

HelloWorld Thisistheword Thisiswordtoo EndofHelloWorld

我该怎么做才能在每个单词之间留一个空格,并在每一行添加新行?

同样在这个http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET中,我看到了以下代码:

int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;

有什么用?

修改 在搜索了更多内容之后,我在comment here中找到了解决方案 我只需要将我的itextsharp.dll更新到更新的版本(我使用的是版本5.4.4.0)并添加了类似于评论所说的功能,现在结果很好,就像我想要的那样

1 个答案:

答案 0 :(得分:0)

在PDFParser中似乎发生了某种Trim()函数。 除此之外,在ExtractTextFromPDFBytes方法中,它检查的换行标记是不正确的,它不应该是'TD','Td': 检查iTextSharp.text.Chunk.NEWLINE