在使用PdfTextExtractor.GetTextFromPage时,我将文本提取到文本文档中,但是每个结束行之后的所有空格都丢失了。我试图用一个简单的三行PDF文件复制这个问题,这个文件是从MS word创建的,并且不成功,每个终端都被一个额外的空格所取代。
以下是PDF文件的PrtScn
以下是记事本显示的文字
February 04, 2013Patient: Ima . TestD.O.B.: 6/14/1970Chart #: 2004-00001SSN: 555-55-5555Dr. :Enclosed you will find the report for Ima . Test.
以同一行结尾的单词未与下一行开头的单词分开。我想如果我想解析字符串,这会导致问题。
答案 0 :(得分:1)
以下是记事本++显示的相同文字
February 04, 2013
Patient: Ima . Test
D.O.B.: 6/14/1970
Chart #: 2004-00001
SSN: 555-55-5555
Dr. :
Enclosed you will find the report for Ima . Test.
我不知道记事本无法识别结束,因此当我将相同的文本复制并粘贴到问题框中时,每一行都是分开的。希望这可以节省一些人遇到同样问题的时间。