如何在pdf中查找文本的x,y位置

时间:2011-01-19 20:08:25

标签: pdf text pdf-generation acrobat pdflib

是否有任何工具可以在pdf文件中的文本内容中找到X-Y位置?

3 个答案:

答案 0 :(得分:5)

Docotic.Pdf Library可以做到。请参阅下面的C#示例:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need"))
{
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
        Console.WriteLine(textData.Position + " " + textData.Text);
}

答案 1 :(得分:1)

尝试在Acrobat中运行“预检...”并选择PDF Analysis -> List page objects, grouped by type of object

如果在结果列表中找到文本对象,您会注意到Text Properties -> * Font部分中有一个位置值(以磅为单位)。

答案 2 :(得分:1)

TET,来自pdflib系列产品的Text Extraction Toolkit可以做到这一点。 TET有一个命令行界面,它是我所知道的所有文本提取工具中最强大的。 (它甚至可以处理连字......)

  

几何
   TET为文本提供精确的度量标准,例如页面上的位置,字形宽度和文本方向。页面上的特定区域可以被排除或包括在文本提取中,例如,忽略页眉和页脚或页边距。