我有一个包含文字和图片内容的pdf文件。我需要解析它。有没有红宝石宝石可以用吗?我尝试了pdf-reader ruby gem但没有解析图像:(
一种替代解决方案是将pdf提取为html,然后解析html内容。是否有任何开源pdf2html转换器可以与两个文本和图像一起使用?
答案 0 :(得分:1)
pdf-reader可以提取图像,但是没有像PDF :: Reader :: Page#text()这样的好助手,所以它很漂亮。
签出extract_images.rd示例@ [1]。
[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb