Ruby pdf-reader在解析PDF时添加了不存在的空白行

时间:2017-05-13 01:51:16

标签: ruby parsing pdf-reader

我正在构建一个工具来解析从Linkedin下载的简历的PDF。但是当我解析文档时,pdf-reader会找到空白行,而不存在于眼睛中。

我想知道这是PDF或PDF阅读器的问题吗?

脚本

require 'pdf-reader'

reader = PDF::Reader.new("CV.pdf")

reader.pages.each_with_index do |page, page_num|
    bits = page.text.split("\n")

    bits.each_with_index do |bit, index|
        puts bit
    end
end

简历快照

enter image description here

解析输出

Senior Analyst
September 2013 - August 2015 (1 year 11 months)
  - Managed a team of analysts to drive operational improvement across all departments of a subsidiary

   company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in
   logistics costs within my first year

您会在输出的文字中注意到句子中间有一个空行。

这看起来很奇怪,因为如果您查看PDF的屏幕截图,它似乎没有任何空行,而pdf阅读器找到了一行。

有没有人有可能导致这种情况的经验?

1 个答案:

答案 0 :(得分:0)

尝试其他库后,问题似乎是Yomu,而不是PDF。

所以我决定使用另一个名为NSURL *appSnapChatURL = [NSURL URLWithString:@"snapchat://app"]; if([[UIApplication sharedApplication] canOpenURL:appSnapChatURL]) { [[UIApplication sharedApplication] openURL:appSnapChatURL]; } 的宝石(参见:https://github.com/Erol/yomu),避免了这个问题。

它有点慢,但可以接受,因为输出的可预测性增加了。