从PDF文件和pdfimages中将PDF图像插入文本?

时间:2012-07-04 00:42:19

标签: linux unix pdf text-extraction pdftotext

我能够安装pdftotext实用程序(我想用Linux附带)将PDF转换为文本,然后在Mac上提取图像:

# install poppler, xpdf, and imagemagick
brew install imagemagick
brew install poppler # not sure if this worked, had to install `xpdf` from online .dmg
pdftotext sample.pdf output.txt
pdfimages sample.pdf pdf-images
# then convert .ppm to .jpg
# one at a time:
# convert pdf-images-001.ppm pdf-images-001.jpg
# batch:
mogrify -format jpg *.ppm

所以现在我有一个output.txt来自PDF的(格式很好的格式化)文本,以及一些我必须使用ImageMagick从.ppm转换为.jpg的图像。

问题是,有没有办法在output.txt文档的正确位置插入对这些图像的引用?或者,是否有办法将这两个命令组合在一起,以便提取文本和图像,并在文本中创建链接到图像的链接?想知道我是否必须手动编写解析代码以自己将图像插入到文本中。

0 个答案:

没有答案