如何使用pdftotext格式化纯文本标记?

时间:2014-07-09 17:30:05

标签: pdftotext

我正在使用pdftotext从PDF文件中提取普通内容。

但结果没有格式(例如:段落,列表等)。如何使用pdftotext从PDF中提取纯文本并将结果格式化为标记?

其实我正在尝试这个:

pdftotext -layout -enc UTF-8

还有其他方法吗?

1 个答案:

答案 0 :(得分:1)

pdftotext无法实现您的目标。

返回pdftotext -layout的结果是你能得到的最好结果。

Markdown (或以其他方式格式化)文本输出目前无法使用。

然而,其他领域可能会有一些发展(例如pdf.js),未来可能会有类似的事情......

这"格式化"然而,只会以某种方式反映PDF页面的视觉外观,并且不匹配任何结构文档信息(告诉什么是标题',什么是一个'列表'什么是'段落')。

@jongware在评论中写的完全正确:

  

PDF文件不包含"段落,列表等。"除非已经使用适当的标记明确标记。如果没有标记PDF,则每个实用程序(包括Adobe自己的Acrobat Reader,PDF处理软件的试金石)只能猜测"段落"或"列表"是。