如何从iText 7中的pdf页面获取文本位置

时间:2017-05-02 20:41:46

标签: itext7

我想在PDF页面找到文字位置?

我所尝试的是使用简单的文本提取策略通过PDF Text Extractor获取PDF页面中的文本。我循环每个单词以检查我的单词是否存在。使用以下方式拆分单词:

$ipcalc 192.168.10.0/24
Address:   192.168.10.0         11000000.10101000.00001010. 00000000
Netmask:   255.255.255.0 = 24   11111111.11111111.11111111. 00000000
Wildcard:  0.0.0.255            00000000.00000000.00000000. 11111111
=>
Network:   192.168.10.0/24      11000000.10101000.00001010. 00000000
HostMin:   192.168.10.1         11000000.10101000.00001010. 00000001
HostMax:   192.168.10.254       11000000.10101000.00001010. 11111110
Broadcast: 192.168.10.255       11000000.10101000.00001010. 11111111
Hosts/Net: 254                   Class C, Private Internet

我无法做的是找到文字位置。问题是我无法找到文本的位置。我需要找到的只是PDF文件中单词的y坐标。

3 个答案:

答案 0 :(得分:3)

首先,SimpleTextExtractionStrategy并不是“最聪明”的策略(顾名思义。

其次,如果你想要这个职位,你将不得不做更多的工作。 TextExtractionStrategy假设您只对文本感兴趣。

可能的实施:

  • 实施IEventListener
  • 收到有关呈现文本的所有事件的通知,并存储相应的TextRenderInfo对象
  • 完成文档后,根据页面在页面中的位置对这些对象进行排序
  • 循环遍历此TextRenderInfo对象列表,它们提供正在渲染的文本和坐标

如何:

  1. 实现ITextExtractionStrategy(或扩展现有的 实现)
  2. 使用PdfTextExtractor.getTextFromPage(doc.getPage(pageNr),strategy),其中strategy表示您在步骤1中创建的策略
  3. 您的策略应设置为跟踪其处理的文本的位置
  4. ITextExtractionStrategy在其界面中具有以下方法:

    @Override
    public void eventOccurred(IEventData data, EventType type) {
    
        // you can first check the type of the event
         if (!type.equals(EventType.RENDER_TEXT))
            return;
    
        // now it is safe to cast
        TextRenderInfo renderInfo = (TextRenderInfo) data;
    }
    

    重要的是要记住,pdf中的渲染指令不需要按顺序出现。 可以使用类似于以下的说明呈现文本“Lorem Ipsum Dolor Sit Amet”: 渲染“Ipsum Do”
    渲染“Lorem”
    渲染“lor Sit Amet”

    您必须进行一些巧妙的合并(取决于两个TextRenderInfo对象之间的距离)和排序(以正确的阅读顺序获取所有TextRenderInfo对象。

    一旦完成,就应该很容易。

答案 1 :(得分:3)

@Joris' answer解释了如何为任务实现全新的提取策略/事件监听器。或者,可以尝试调整现有的文本提取策略来执行您所需的操作。

此答案演示了如何调整现有LocationTextExtractionStrategy以返回文字及其字符'各自的y坐标。

请注意,这只是一个概念验证,它特别假设文本要水平书写,即使用有效的变换矩阵(ctm和文本矩阵组合),b和c等于0。 此外,TextPlusY的字符和坐标检索方法根本没有优化,可能需要很长时间才能执行。

由于OP没有表达语言偏好,这里是iText7 for Java的解决方案:

TextPlusY

对于手头的任务,需要能够并排检索字符和y坐标。为了使这更容易,我使用一个表示文本的字符的字符'各自的y坐标。它源自CharSequenceString的一般化,允许在许多String相关函数中使用它:

public class TextPlusY implements CharSequence
{
    final List<String> texts = new ArrayList<>();
    final List<Float> yCoords = new ArrayList<>();

    //
    // CharSequence implementation
    //
    @Override
    public int length()
    {
        int length = 0;
        for (String text : texts)
        {
            length += text.length();
        }
        return length;
    }

    @Override
    public char charAt(int index)
    {
        for (String text : texts)
        {
            if (index < text.length())
            {
                return text.charAt(index);
            }
            index -= text.length();
        }
        throw new IndexOutOfBoundsException();
    }

    @Override
    public CharSequence subSequence(int start, int end)
    {
        TextPlusY result = new TextPlusY();
        int length = end - start;
        for (int i = 0; i < yCoords.size(); i++)
        {
            String text = texts.get(i);
            if (start < text.length())
            {
                float yCoord = yCoords.get(i); 
                if (start > 0)
                {
                    text = text.substring(start);
                    start = 0;
                }
                if (length > text.length())
                {
                    result.add(text, yCoord);
                }
                else
                {
                    result.add(text.substring(0, length), yCoord);
                    break;
                }
            }
            else
            {
                start -= text.length();
            }
        }
        return result;
    }

    //
    // Object overrides
    //
    @Override
    public String toString()
    {
        StringBuilder builder = new StringBuilder();
        for (String text : texts)
        {
            builder.append(text);
        }
        return builder.toString();
    }

    //
    // y coordinate support
    //
    public TextPlusY add(String text, float y)
    {
        if (text != null)
        {
            texts.add(text);
            yCoords.add(y);
        }
        return this;
    }

    public float yCoordAt(int index)
    {
        for (int i = 0; i < yCoords.size(); i++)
        {
            String text = texts.get(i);
            if (index < text.length())
            {
                return yCoords.get(i);
            }
            index -= text.length();
        }
        throw new IndexOutOfBoundsException();
    }
}

TextPlusY.java

TextPlusYExtractionStrategy

现在我们扩展LocationTextExtractionStrategy以提取TextPlusY而不是String。我们所需要的只是概括方法getResultantText

不幸的是,LocationTextExtractionStrategy隐藏了一些需要在此处访问的方法和成员(private或受保护的包);因此,需要一些反思魔法。如果您的框架不允许这样做,那么您必须复制整个策略并相应地对其进行操作。

public class TextPlusYExtractionStrategy extends LocationTextExtractionStrategy
{
    static Field locationalResultField;
    static Method sortWithMarksMethod;
    static Method startsWithSpaceMethod;
    static Method endsWithSpaceMethod;

    static Method textChunkSameLineMethod;

    static
    {
        try
        {
            locationalResultField = LocationTextExtractionStrategy.class.getDeclaredField("locationalResult");
            locationalResultField.setAccessible(true);
            sortWithMarksMethod = LocationTextExtractionStrategy.class.getDeclaredMethod("sortWithMarks", List.class);
            sortWithMarksMethod.setAccessible(true);
            startsWithSpaceMethod = LocationTextExtractionStrategy.class.getDeclaredMethod("startsWithSpace", String.class);
            startsWithSpaceMethod.setAccessible(true);
            endsWithSpaceMethod = LocationTextExtractionStrategy.class.getDeclaredMethod("endsWithSpace", String.class);
            endsWithSpaceMethod.setAccessible(true);

            textChunkSameLineMethod = TextChunk.class.getDeclaredMethod("sameLine", TextChunk.class);
            textChunkSameLineMethod.setAccessible(true);
        }
        catch(NoSuchFieldException | NoSuchMethodException | SecurityException e)
        {
            // Reflection failed
        }
    }

    //
    // constructors
    //
    public TextPlusYExtractionStrategy()
    {
        super();
    }

    public TextPlusYExtractionStrategy(ITextChunkLocationStrategy strat)
    {
        super(strat);
    }

    @Override
    public String getResultantText()
    {
        return getResultantTextPlusY().toString();
    }

    public TextPlusY getResultantTextPlusY()
    {
        try
        {
            List<TextChunk> textChunks = new ArrayList<>((List<TextChunk>)locationalResultField.get(this));
            sortWithMarksMethod.invoke(this, textChunks);

            TextPlusY textPlusY = new TextPlusY();
            TextChunk lastChunk = null;
            for (TextChunk chunk : textChunks)
            {
                float chunkY = chunk.getLocation().getStartLocation().get(Vector.I2);
                if (lastChunk == null)
                {
                    textPlusY.add(chunk.getText(), chunkY);
                }
                else if ((Boolean)textChunkSameLineMethod.invoke(chunk, lastChunk))
                {
                    // we only insert a blank space if the trailing character of the previous string wasn't a space, and the leading character of the current string isn't a space
                    if (isChunkAtWordBoundary(chunk, lastChunk) &&
                            !(Boolean)startsWithSpaceMethod.invoke(this, chunk.getText()) &&
                            !(Boolean)endsWithSpaceMethod.invoke(this, lastChunk.getText()))
                    {
                        textPlusY.add(" ", chunkY);
                    }

                    textPlusY.add(chunk.getText(), chunkY);
                }
                else
                {
                    textPlusY.add("\n", lastChunk.getLocation().getStartLocation().get(Vector.I2));
                    textPlusY.add(chunk.getText(), chunkY);
                }
                lastChunk = chunk;
            }

            return textPlusY;
        }
        catch (IllegalAccessException | IllegalArgumentException | InvocationTargetException e)
        {
            throw new RuntimeException("Reflection failed", e);
        }
    }
}

TextPlusYExtractionStrategy.java

用法

使用这两个类,您可以使用坐标提取文本并在其中搜索:

try (   PdfReader reader = new PdfReader(YOUR_PDF);
        PdfDocument document = new PdfDocument(reader)  )
{
    TextPlusYExtractionStrategy extractionStrategy = new TextPlusYExtractionStrategy();
    PdfPage page = document.getFirstPage();

    PdfCanvasProcessor parser = new PdfCanvasProcessor(extractionStrategy);
    parser.processPageContent(page);
    TextPlusY textPlusY = extractionStrategy.getResultantTextPlusY();

    System.out.printf("\nText from test.pdf\n=====\n%s\n=====\n", textPlusY);

    System.out.print("\nText with y from test.pdf\n=====\n");

    int length = textPlusY.length();
    float lastY = Float.MIN_NORMAL;
    for (int i = 0; i < length; i++)
    {
        float y = textPlusY.yCoordAt(i);
        if (y != lastY)
        {
            System.out.printf("\n(%4.1f) ", y);
            lastY = y;
        }
        System.out.print(textPlusY.charAt(i));
    }
    System.out.print("\n=====\n");

    System.out.print("\nMatches of 'est' with y from test.pdf\n=====\n");
    Matcher matcher = Pattern.compile("est").matcher(textPlusY);
    while (matcher.find())
    {
        System.out.printf("from character %s to %s at y position (%4.1f)\n", matcher.start(), matcher.end(), textPlusY.yCoordAt(matcher.start()));
    }
    System.out.print("\n=====\n");
}

ExtractTextPlusY测试方法testExtractTextPlusYFromTest

我的测试文件

enter image description here

上面测试代码的输出是

Text from test.pdf
=====
Ein Dokumen t mit einigen
T estdaten
T esttest T est test test
=====

Text with y from test.pdf
=====

(691,8) Ein Dokumen t mit einigen

(666,9) T estdaten

(642,0) T esttest T est test test
=====

Matches of 'est' with y from test.pdf
=====
from character 28 to 31 at y position (666,9)
from character 39 to 42 at y position (642,0)
from character 43 to 46 at y position (642,0)
from character 49 to 52 at y position (642,0)
from character 54 to 57 at y position (642,0)
from character 59 to 62 at y position (642,0)

=====

我的语言环境使用逗号作为小数点分隔符,您可能会看到666.9而不是666,9

您可以通过进一步微调基本LocationTextExtractionStrategy功能来删除您看到的额外空格。但这是其他问题的焦点......

答案 2 :(得分:1)

我能够使用我之前的Itext5版本来操作它。我不知道你是否在寻找C#,但这就是下面的代码所写的内容。

using iText.Kernel.Geom;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Data;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

class TextLocationStrategy : LocationTextExtractionStrategy
{
    private List<textChunk> objectResult = new List<textChunk>();

    public override void EventOccurred(IEventData data, EventType type)
    {
        if (!type.Equals(EventType.RENDER_TEXT))
            return;

        TextRenderInfo renderInfo = (TextRenderInfo)data;

        string curFont = renderInfo.GetFont().GetFontProgram().ToString();

        float curFontSize = renderInfo.GetFontSize();

        IList<TextRenderInfo> text = renderInfo.GetCharacterRenderInfos();
        foreach (TextRenderInfo t in text)
        {
            string letter = t.GetText();
            Vector letterStart = t.GetBaseline().GetStartPoint();
            Vector letterEnd = t.GetAscentLine().GetEndPoint();
            Rectangle letterRect = new Rectangle(letterStart.Get(0), letterStart.Get(1), letterEnd.Get(0) - letterStart.Get(0), letterEnd.Get(1) - letterStart.Get(1));

            if (letter != " " && !letter.Contains(' '))
            {
                textChunk chunk = new textChunk();
                chunk.text = letter;
                chunk.rect = letterRect;
                chunk.fontFamily = curFont;
                chunk.fontSize = curFontSize;
                chunk.spaceWidth = t.GetSingleSpaceWidth() / 2f;

                objectResult.Add(chunk);
            }
        }
    }
}
public class textChunk
{
    public string text { get; set; }
    public Rectangle rect { get; set; }
    public string fontFamily { get; set; }
    public int fontSize { get; set; }
    public float spaceWidth { get; set; }
}

我也了解每个角色,因为它对我的过程更有效。你可以操作名称,当然也可以操作对象,但是我创建了textchunk以保存我想要的东西,而不是拥有一堆renderInfo对象。

您可以通过添加几行来从pdf中获取数据来实现此目的。

PdfDocument reader = new PdfDocument(new PdfReader(filepath));
FilteredEventListener listener = new FilteredEventListener();
var strat = listener.AttachEventListener(new TextExtractionStrat());
PdfCanvasProcessor processor = new PdfCanvasProcessor(listener);
processor.ProcessPageContent(reader.GetPage(1));

一旦你到目前为止,你可以通过将objectResult公开或在你的类中创建一个方法来抓取objectResult并对它做一些事情来从strat中提取它。