识别PDF文本提取中的列分隔 - itextsharp

时间:2013-09-09 16:51:51

标签: c# itextsharp itext

我使用itextsharp从PDF文件中提取文本。

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber, strategy);

currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
return currentText;

使用该代码,我可以用纯文本获取所有信息,这很好。但是,当我尝试处理它时,我发现我无法知道特定列的开始和结束的位置。

这是示例表示例:

The fields could be multiline

在提取文本后,我获得了类似的内容

Name
Details
Note
MYNAME
THIS ARE THE 
DETAILS
HERE YOU CAN
FIND A NOTE

正如您所看到的,很难知道列信息的开始位置和结束位置......

¿有什么想法确定色谱柱分离?

非常感谢

环境

PDF标记:没有
itextsharp 5.4.3.0
.Net 4

0 个答案:

没有答案