使用脚本从pdf文档中获取文本

时间:2012-02-25 11:00:27

标签: windows linux bash

如何使用脚本从pdf文档中获取文本?我使用windows,偶尔使用linux。

3 个答案:

答案 0 :(得分:1)

大多数Linux发行版都应该有pdftohtml。顾名思义,它可以将PDF转换为HTML。将HTML转换为纯文本可以通过多种方式完成,例如使用lynx -dump file.html

答案 1 :(得分:1)

您可以使用Linux pdftotext命令(poppler的一部分)。

答案 2 :(得分:1)

如果目标是使用鼠标从PDF获取文本,则应运行xpdf。它似乎没有注意安全设置。至少,我在Mac上运行的版本没有。