Question

我想将文件从PDF提取到asp.net中的文本框，我尝试了project here

中的代码

我已成功从PDF中提取文本，但结果首先导出到.txt文件，结果没有任何行，并且单词之间没有任何空格。

如果这是PDF文本的示例

Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World

结果将是这样的

HelloWorld Thisistheword Thisiswordtoo EndofHelloWorld

我该怎么做才能在每个单词之间留一个空格，并在每一行添加新行？

int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;

有什么用？

修改在搜索了更多内容之后，我在comment here中找到了解决方案我只需要将我的itextsharp.dll更新到更新的版本（我使用的是版本5.4.4.0）并添加了类似于评论所说的功能，现在结果很好，就像我想要的那样

Answer 1

在PDFParser中似乎发生了某种Trim（）函数。除此之外，在ExtractTextFromPDFBytes方法中，它检查的换行标记是不正确的，它不应该是'TD'，'Td'：检查iTextSharp.text.Chunk.NEWLINE