Question

我正在使用pdftotext从PDF文件中提取普通内容。

但结果没有格式（例如：段落，列表等）。如何使用pdftotext从PDF中提取纯文本并将结果格式化为标记？

其实我正在尝试这个：

pdftotext -layout -enc UTF-8

还有其他方法吗？

Answer 1

pdftotext无法实现您的目标。

返回pdftotext -layout的结果是你能得到的最好结果。

Markdown （或以其他方式格式化）文本输出目前无法使用。

然而，其他领域可能会有一些发展（例如pdf.js），未来可能会有类似的事情......

这＆＃34;格式化＆＃34;然而，只会以某种方式反映PDF页面的视觉外观，并且不匹配任何结构文档信息（告诉什么是标题＆＃39;，什么是一个＆＃39;列表＆＃39;什么是＆＃39;段落＆＃39;）。

@jongware在评论中写的完全正确：

PDF文件不包含＆＃34;段落，列表等。＆＃34;除非已经使用适当的标记明确标记。如果没有标记PDF，则每个实用程序（包括Adobe自己的Acrobat Reader，PDF处理软件的试金石）只能猜测＆＃34;段落＆＃34;或＆＃34;列表＆＃34;是。