iTextSharp不检索TAB字符

时间:2014-06-21 20:02:11

标签: itextsharp

我正在通过iTextSharp读取pdf文件,但以下命令不会返回TAB字符,只返回ENTER。

var rect = new System.util.RectangleJ(x, y, width, height);
var filters = new RenderFilter[1];
filters[0] = new RegionTextRenderFilter(rect);
ITextExtractionStrategy strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), filters);
var currentText = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber, strategy);

有人能帮助我吗?

谢谢

1 个答案:

答案 0 :(得分:1)

没有人可以回答您的问题,因为您假设PDF内容流中存在TAB字符的概念是错误的。

两个单词之间没有TAB字符。通过定义单词之间的距离来创建TAB。在绝对位置添加文本,如果需要用标签空间分隔两个文本片段,则根据此要求调整坐标。 没有TAB字符!只有文字摘要之间的距离差异。

iTextSharp可以为您提供有关存储在PDF中的文本片段位置的详细信息。您可以在接受此问题的答案中找到一些代码:PDF Reading highlighed text (highlight annotations) using C#

我们于2014年6月17日在科隆的iText峰会上展示了文本提取的概念。这些幻灯片可以帮助您:http://www.slideshare.net/iTextPDF/itext-summit-2014-talk-unstructured-pdf