标签: text-extraction pdftotext poppler pdf-scraping xpdf
我正在使用pdftotext -bbox file.pdf并生成字级输出。 有没有办法在字符/短语/行/块级别输出坐标?
我很想知道pdftotext的poppler或xpdf版本是否可以这样做。
答案 0 :(得分:0)
当然,只需使用pdftotext -bbox-layout,它就会为您提供所需的结构。
pdftotext -bbox-layout