Question

我找不到如何使用iText API获取PDF文档中特定符号组合（例如+ <）的位置（x，y）的示例。我可以找到带有此类符号的行或块的位置。但是据我所知，即使这些符号在文档中是单独的单词，也不能保证它会是单独的块。

Answer 1

您要查找的课程是RegexBasedLocationExtractionStrategy。

您可以使用表示正则表达式的String对象来构造它，或直接将其提供给正则表达式。

然后使用PdfPage将其应用于PdfCanvasProcessor，然后调用getResultantLocations。

PdfDocument pdfDoc = new PdfDocument(new PdfReader(SRC));

RegexBasedLocationExtractionStrategy extractionStrategy = new RegexBasedLocationExtractionStrategy(@"foobar");

IList<IPdfTextLocation> locationList = new List<IPdfTextLocation>();

PdfCanvasProcessor parser = new PdfCanvasProcessor(extractionStrategy);
parser.ProcessPageContent(pdfDoc.GetFirstPage());

extractionStrategy.GetResultantLocations(); // do something with them

iText-获取符号组合的位置

1 个答案: