iTextSharp PdfTextExtractor返回endline之间没有空格

时间:2013-02-06 15:58:48

标签: itextsharp

在使用PdfTextExtractor.GetTextFromPage时,我将文本提取到文本文档中,但是每个结束行之后的所有空格都丢失了。我试图用一个简单的三行PDF文件复制这个问题,这个文件是从MS word创建的,并且不成功,每个终端都被一个额外的空格所取代。

以下是PDF文件的PrtScn

PDF

以下是记事本显示的文字

February 04, 2013Patient:  Ima . TestD.O.B.:   6/14/1970Chart #:   2004-00001SSN:  555-55-5555Dr. :Enclosed you will find the report for Ima . Test.

以同一行结尾的单词未与下一行开头的单词分开。我想如果我想解析字符串,这会导致问题。

1 个答案:

答案 0 :(得分:1)

以下是记事本++显示的相同文字

February 04, 2013
Patient:  Ima . Test
D.O.B.:   6/14/1970
Chart #:   2004-00001
SSN:  555-55-5555
Dr. :
Enclosed you will find the report for Ima . Test.

我不知道记事本无法识别结束,因此当我将相同的文本复制并粘贴到问题框中时,每一行都是分开的。希望这可以节省一些人遇到同样问题的时间。