我能够安装pdftotext
实用程序(我想用Linux附带)将PDF转换为文本,然后在Mac上提取图像:
# install poppler, xpdf, and imagemagick
brew install imagemagick
brew install poppler # not sure if this worked, had to install `xpdf` from online .dmg
pdftotext sample.pdf output.txt
pdfimages sample.pdf pdf-images
# then convert .ppm to .jpg
# one at a time:
# convert pdf-images-001.ppm pdf-images-001.jpg
# batch:
mogrify -format jpg *.ppm
所以现在我有一个output.txt
来自PDF的(格式很好的格式化)文本,以及一些我必须使用ImageMagick从.ppm
转换为.jpg
的图像。
问题是,有没有办法在output.txt
文档的正确位置插入对这些图像的引用?或者,是否有办法将这两个命令组合在一起,以便提取文本和图像,并在文本中创建链接到图像的链接?想知道我是否必须手动编写解析代码以自己将图像插入到文本中。