如何使用C#iTextSharp在读取PDF时设置数据集之间的字符

时间:2016-08-19 05:22:58

标签: c# pdf itext

使用C#iTextSharp读取PDF时,默认情况下在数据集之间使用空格。

当我尝试用空格分割时,这会给我带来麻烦,因为PDF中的数据包含空格。

例如,我有一个像下面这样的PDF,它有一个表:

基金AA |固定收益

基金BB |现金

iTextSharp提取的结果是:

基金AA固定收益

Fund BB Cash

以这种方式,我无法分裂。 所以我想设置一个特殊的字符,比如数据集之间的+。通过这种方式,我可以分裂和判断。

预期结果是:

基金AA +固定收益

基金BB +现金

有谁知道如何实现这个目标?

谢谢。

1 个答案:

答案 0 :(得分:0)

实际上没有办法将分隔符从空格设置为' +'除非我们更新源代码。

我是如何为我解决的。我下载源代码并更新它,然后获取新的itextsharp.dll,它使用' +'现在作为分隔符。

我认为如果我们将它设为属性字段或参数,并且用户可以设置其值,那就更好了。

我更新的线路粘贴在下面: https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/LocationTextExtractionStrategy.cs 第193行 https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/SimpleTextExtractionStrategy.cs 第145行