如何在不读取图像的情况下解析PDF?

时间:2014-06-23 18:25:27

标签: pdfbox text-parsing

我正在解析PDF文件,但我不想提取存储在图像和表格中的信息。我正在使用PDFBOX。如何删除图像?

1 个答案:

答案 0 :(得分:0)

pdftotext -raw <pdf_name.pdf> <output.txt>

这将删除所有格式,并返回PDF中的字符串,无图像。