Question

我正试图通过Poppler及其（缺乏）文档。

我想要做的是一件非常简单的事情：打开PDF文件并阅读其中的文字。我接下来要处理文本，但这并不重要。

所以...我看到poppler_page_get_text函数，它有点工作，但我必须指定一个选择矩形，这不是很方便。是不是只有一个非常简单的函数可以按顺序输出PDF文本（可能是逐行？）。

Answer 1

您应该可以将选择矩形设置为页面的pageSize/MediaBox并获取所有文本。

我说应该因为在你开始想知道为什么你对poppler_page_get_text的输出感到惊讶之前，你应该知道文本如何在页面上布局。所有图形都使用以修复后符号表示的程序在页面上排列。要呈现页面，该程序在空白页面上执行。

程序中的操作可以包括，改变颜色，位置，当前变换矩阵，绘制线，贝塞尔曲线等。文本由一系列文本运算符布局，这些运算符总是被BT（开始文本）和ET（结束文本）括起来。文本放置在页面上的方式和位置由生成PDF的软件自行决定。例如，对于打印驱动程序，代码响应DrawString的GDI调用，并将其转换为文本绘制操作。

如果运气好的话，页面上的文字将按照合理的字体用法排列，但许多生成PDF的程序并不那么友好。例如，Psroff喜欢先放置所有纯文本，然后是斜体文本，然后是粗体文本。单词可能会也可能不会按阅读顺序排列。可以重新编码字体，以便'a'映射到'{'或其他任何内容。然后，您可能会有多个字符被单个字形替换的连字 - 最常见的字符是ae，oe，fi，fl和ffl。

有了所有这些，提取文本的过程显然是非平凡的，所以如果你看到文本提取效果不佳，不要感到惊讶。

我曾经在Acrobat 1.0和2.0中使用文本提取工具 - 这是一个真正的挑战。

Answer 2

仅仅是为了记录，我现在正在使用 poppler 这个小程序

#include <iostream>

#include "poppler-document.h"
#include "poppler-page.h"
using namespace std;

int main()
{
    poppler::document *doc = poppler::document::load_from_file("./CMI2APIDocV1.4.pdf");
    const int pagesNbr = doc->pages();
    cout << "page count: " << pagesNbr << endl;

    for (int i = 0; i < pagesNbr; ++i)
        cout << doc->create_page(i)->text().to_latin1().c_str() << endl;
}

// g++ -I/usr/include/poppler/cpp/ -c poppler.cpp
// g++ -I/usr/include/poppler/cpp poppler.o  /usr/lib/x86_64-linux-gnu/libpoppler-cpp.a /usr/lib/x86_64-linux-gnu/libpoppler.a /usr/lib/x86_64-linux-gnu/liblcms2.so     /usr/lib/x86_64-linux-gnu/libfontconfig.a /usr/lib/x86_64-linux-gnu/libjpeg.a /usr/lib/x86_64-linux-gnu/libfreetype.a     /usr/lib/x86_64-linux-gnu/libexpat.a /usr/lib/x86_64-linux-gnu/libz.a

到目前为止，我对这个结果非常满意，除了纯文本中的数组和“电子表格”恢复，有时单个单元格可能跨越多行。（如果有人知道如何避免这种情况？）

使用Poppler（C ++）从PDF中提取文本

2 个答案: