应用错误收集

pdftotext获取字体信息（font-family，style，size）

时间：2018-05-06 11:23:25

标签： text-extraction pdftotext poppler pdf-scraping xpdf

我正在使用“pdftotext -bbox file.pdf”将pdf文件转换为HTML。

以下是输出中的示例行：

<word xMin="351.852025" yMin="42.548936" xMax="365.689478"
yMax="47.681498">foo</word>

有没有办法获取每个单词的字体信息，如：

字体系列，例如宋体
style，即none，bold，italic
尺寸，例如字体大小9

我很想知道pdftotext的poppler或xpdf版本是否可以这样做。

0 个答案:

没有答案