在PDFClown中使用TextExtractor
类时遇到问题,出现空白空间也称为“自由新行”。这些字符随机嵌入,但在Acrobat Reader中被忽略。因此,存在这些字符的行将在Acrobat中显示为单行,但如果我在'\n'
中将TextExtractor.ToString(...)
指定为换行符,则在提取文本时将其分为多行。
看来PDF小丑只需要任何空白字符并将其转换为单个空格,或' '
。有没有办法绕过这种转换,以便提取原始字符?
答案 0 :(得分:1)
经过更多研究后,似乎PDFClown库非常多。有几个问题:
直接来到我遇到的问题,您可以通过检查它们的边界矩形来检测并删除这些“假”空白字符,看它们是否与其他非空白字符重叠,但考虑到库的所有其他问题,我的建议使用PDFBox代替。
如果您正在使用.NET而您想使用PDFBox,则可以使用Tika On Dot Net这是通过IKVM带到.NET的Apache Tika项目。
Apache Tika是其他库的集合,包括PDFBox。 Tika On Dot Net目前拥有PDFBox 1.8.10,并且还有一个Nuget包,可以轻松地为您的项目添加。
我有一个项目超过截止日期1.5周,因为所有这些问题都被发现了一半,需要完全重写。只是一个抬头。