标签: windows linux bash
如何使用脚本从pdf文档中获取文本?我使用windows,偶尔使用linux。
答案 0 :(得分:1)
大多数Linux发行版都应该有pdftohtml。顾名思义,它可以将PDF转换为HTML。将HTML转换为纯文本可以通过多种方式完成,例如使用lynx -dump file.html
pdftohtml
lynx -dump file.html
答案 1 :(得分:1)
您可以使用Linux pdftotext命令(poppler的一部分)。
答案 2 :(得分:1)
如果目标是使用鼠标从PDF获取文本,则应运行xpdf。它似乎没有注意安全设置。至少,我在Mac上运行的版本没有。
xpdf