我找不到如何使用iText API获取PDF文档中特定符号组合(例如+ <)的位置(x,y)的示例。 我可以找到带有此类符号的行或块的位置。但是据我所知,即使这些符号在文档中是单独的单词,也不能保证它会是单独的块。
答案 0 :(得分:5)
您要查找的课程是RegexBasedLocationExtractionStrategy
。
您可以使用表示正则表达式的String
对象来构造它,或直接将其提供给正则表达式。
然后使用PdfPage
将其应用于PdfCanvasProcessor
,然后调用getResultantLocations
。
PdfDocument pdfDoc = new PdfDocument(new PdfReader(SRC));
RegexBasedLocationExtractionStrategy extractionStrategy = new RegexBasedLocationExtractionStrategy(@"foobar");
IList<IPdfTextLocation> locationList = new List<IPdfTextLocation>();
PdfCanvasProcessor parser = new PdfCanvasProcessor(extractionStrategy);
parser.ProcessPageContent(pdfDoc.GetFirstPage());
extractionStrategy.GetResultantLocations(); // do something with them