使用ruby pdf阅读器解析pdf

时间:2019-07-12 06:34:16

标签: ruby pdf-reader

我正在尝试使用pdf阅读器gem解析pdf。我探索了几种方法和特定pdf页面的显示方法可以显示正确的数据(即使表列有多行也表明特定列组合在一起),但返回值却为nil,所以有什么办法可以获取此方法显示的值?我也尝试过使用text方法,但是问题是,在pdf中,我有类似结构的表,并且一个表列可以有多行,并且由于这个原因,text方法没有按顺序显示值,所以它首先显示排然后第二排,依此类推。因此,判断哪个特定的列有多行几乎没有困难。有解决该问题的解决方案吗?

reader = PDF::Reader.new(io)
reader.page(1).display #display methods print nice pdf data but return nil
reader.page(1).text #display pdf text but does not show value in order (in case of table)

1 个答案:

答案 0 :(得分:0)

尝试下面的代码

reader = PDF::Reader.new(io)
puts reader.page(1).display #display methods print nice pdf data but return nil
puts reader.page(1).text #display pdf text but does not show value in order (in case of table)

display方法仅打印不返回的内容。

如果要查看任何结果。输入putsp并尝试