标签: text-extraction pdftotext poppler pdf-scraping xpdf
我正在使用“pdftotext -bbox file.pdf”将pdf文件转换为HTML。
pdftotext -bbox file.pdf
pdf
HTML
以下是输出中的示例行:
<word xMin="351.852025" yMin="42.548936" xMax="365.689478" yMax="47.681498">foo</word>
有没有办法获取每个单词的字体信息,如:
我很想知道pdftotext的poppler或xpdf版本是否可以这样做。