我使用Imagemagick将.pdf文件转换为.png图像
但是当我发出命令
时$ convert sample.pdf image.png
然后它会将sample.pdf文件的所有页面转换为.png图像,但我想要
转换特定号码。页面(例如前10页或第22或12页等)
然后请建议我解决这个问题的方法。
还有一个问题是:
当我们在google docs .pdf查看器中查看我们的.pdf文件时,它们也是图像格式
但我们可以选择并将页面上写的文字复制到剪贴板(只需选择文字并按
即可CTRL + C)
所以如何实现这一点,以便我网站的用户可以从我的图像中选择文本。
(已经在stackoverflow上对它进行了一些讨论,但它们不是很清楚)
答案 0 :(得分:6)
for i in {0..9} 11 21
do
convert "sample.pdf[$i]" "image_$i".png
done
答案 1 :(得分:3)
Benoits的回答是您正在寻找切片和将PDF转换为图像的方法。
或者,您可以将pdftk用于cat操作。这将为您提供前10页并生成新的切片PDF。
pdftk YOUR.PDF cat 1-10 output SLICED.PDF
关于将图像PDF转换为带文本数据的PDF的第二个问题,唯一的方法是使用像Tesseract这样的OCR工具。
唯一的问题是那些OCR工具并不总是那么精确。换句话说,有时他们并不总是能够输出您在该图像上阅读的内容。