Question

我正在构建一个工具来解析从Linkedin下载的简历的PDF。但是当我解析文档时，pdf-reader会找到空白行，而不存在于眼睛中。

我想知道这是PDF或PDF阅读器的问题吗？

脚本

require 'pdf-reader'

reader = PDF::Reader.new("CV.pdf")

reader.pages.each_with_index do |page, page_num|
    bits = page.text.split("\n")

    bits.each_with_index do |bit, index|
        puts bit
    end
end

简历快照

解析输出

Senior Analyst
September 2013 - August 2015 (1 year 11 months)
  - Managed a team of analysts to drive operational improvement across all departments of a subsidiary

   company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in
   logistics costs within my first year

您会在输出的文字中注意到句子中间有一个空行。

这看起来很奇怪，因为如果您查看PDF的屏幕截图，它似乎没有任何空行，而pdf阅读器找到了一行。

有没有人有可能导致这种情况的经验？

Answer 1

尝试其他库后，问题似乎是Yomu，而不是PDF。

所以我决定使用另一个名为NSURL *appSnapChatURL = [NSURL URLWithString:@"snapchat://app"]; if([[UIApplication sharedApplication] canOpenURL:appSnapChatURL]) { [[UIApplication sharedApplication] openURL:appSnapChatURL]; }的宝石（参见：https://github.com/Erol/yomu），避免了这个问题。

它有点慢，但可以接受，因为输出的可预测性增加了。

Ruby pdf-reader在解析PDF时添加了不存在的空白行

1 个答案: