iText-获取符号组合的位置

时间:2018-11-23 14:30:52

标签: .net itext

我找不到如何使用iText API获取PDF文档中特定符号组合(例如+ <)的位置(x,y)的示例。 我可以找到带有此类符号的行或块的位置。但是据我所知,即使这些符号在文档中是单独的单词,也不能保证它会是单独的块。

1 个答案:

答案 0 :(得分:5)

您要查找的课程是RegexBasedLocationExtractionStrategy

您可以使用表示正则表达式的String对象来构造它,或直接将其提供给正则表达式。

然后使用PdfPage将其应用于PdfCanvasProcessor,然后调用getResultantLocations

PdfDocument pdfDoc = new PdfDocument(new PdfReader(SRC));

RegexBasedLocationExtractionStrategy extractionStrategy = new RegexBasedLocationExtractionStrategy(@"foobar");

IList<IPdfTextLocation> locationList = new List<IPdfTextLocation>();

PdfCanvasProcessor parser = new PdfCanvasProcessor(extractionStrategy);
parser.ProcessPageContent(pdfDoc.GetFirstPage());

extractionStrategy.GetResultantLocations(); // do something with them