标签: pdfbox text-parsing
我正在解析PDF文件,但我不想提取存储在图像和表格中的信息。我正在使用PDFBOX。如何删除图像?
答案 0 :(得分:0)
pdftotext -raw <pdf_name.pdf> <output.txt>
这将删除所有格式,并返回PDF中的字符串,无图像。