使用C#iTextSharp读取PDF时,默认情况下在数据集之间使用空格。
当我尝试用空格分割时,这会给我带来麻烦,因为PDF中的数据包含空格。
例如,我有一个像下面这样的PDF,它有一个表:
基金AA |固定收益
基金BB |现金
iTextSharp提取的结果是:
基金AA固定收益
Fund BB Cash
以这种方式,我无法分裂。 所以我想设置一个特殊的字符,比如数据集之间的+。通过这种方式,我可以分裂和判断。
预期结果是:
基金AA +固定收益
基金BB +现金
有谁知道如何实现这个目标?
谢谢。
答案 0 :(得分:0)
实际上没有办法将分隔符从空格设置为' +'除非我们更新源代码。
我是如何为我解决的。我下载源代码并更新它,然后获取新的itextsharp.dll,它使用' +'现在作为分隔符。
我认为如果我们将它设为属性字段或参数,并且用户可以设置其值,那就更好了。
我更新的线路粘贴在下面: https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/LocationTextExtractionStrategy.cs 第193行 https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/SimpleTextExtractionStrategy.cs 第145行