Ruby Parse PDF文件包含文本和图像

时间:2012-04-15 18:49:51

标签: ruby pdf

我有一个包含文字图片内容的pdf文件。我需要解析它。有没有红宝石宝石可以用吗?我尝试了pdf-reader ruby​​ gem但没有解析图像:(

一种替代解决方案是将pdf提取为html,然后解析html内容。是否有任何开源pdf2html转换器可以与两个文本和图像一起使用?

1 个答案:

答案 0 :(得分:1)

pdf-reader可以提取图像,但是没有像PDF :: Reader :: Page#text()这样的好助手,所以它很漂亮。

签出extract_images.rd示例@ [1]。

[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb