我正在使用pdftotext
从PDF文件中提取普通内容。
但结果没有格式(例如:段落,列表等)。如何使用pdftotext
从PDF中提取纯文本并将结果格式化为标记?
其实我正在尝试这个:
pdftotext -layout -enc UTF-8
还有其他方法吗?
答案 0 :(得分:1)
pdftotext
无法实现您的目标。
返回pdftotext -layout
的结果是你能得到的最好结果。
Markdown (或以其他方式格式化)文本输出目前无法使用。
然而,其他领域可能会有一些发展(例如pdf.js
),未来可能会有类似的事情......
这"格式化"然而,只会以某种方式反映PDF页面的视觉外观,并且不匹配任何结构文档信息(告诉什么是标题',什么是一个'列表'什么是'段落')。
@jongware在评论中写的完全正确:
PDF文件不包含"段落,列表等。"除非已经使用适当的标记明确标记。如果没有标记PDF,则每个实用程序(包括Adobe自己的Acrobat Reader,PDF处理软件的试金石)只能猜测"段落"或"列表"是。