我想将文件从PDF提取到asp.net中的文本框,我尝试了project here
中的代码我已成功从PDF中提取文本,但结果首先导出到.txt文件,结果没有任何行,并且单词之间没有任何空格。
如果这是PDF文本的示例
Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World
结果将是这样的
HelloWorld Thisistheword Thisiswordtoo EndofHelloWorld
我该怎么做才能在每个单词之间留一个空格,并在每一行添加新行?
同样在这个http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET中,我看到了以下代码:
int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;
有什么用?
修改 在搜索了更多内容之后,我在comment here中找到了解决方案 我只需要将我的itextsharp.dll更新到更新的版本(我使用的是版本5.4.4.0)并添加了类似于评论所说的功能,现在结果很好,就像我想要的那样
答案 0 :(得分:0)
在PDFParser中似乎发生了某种Trim()函数。 除此之外,在ExtractTextFromPDFBytes方法中,它检查的换行标记是不正确的,它不应该是'TD','Td': 检查iTextSharp.text.Chunk.NEWLINE