如何删除pdf文件中的分词和换行符?

时间:2017-05-09 10:21:19

标签: ruby pdf

我正在尝试解析一个pdf文件,我希望在该行的末尾没有断字输入,例如:

text.pdf

"hello guys I ne-
ed help"

如何删除“ - ”和换行符以便将“需要”的两个部分粘在一起

这是我的实际代码:

reader = PDF::Reader.new(‘text.pdf’)
reader.pages.each do |page|
 page.text.each_line do |line|
   words = line.split(” “) # => ["hello"], ["guys"], ["I"], ["ne-"], ["ed"], ["help"]
    words.each do |word|
      puts word
    end
 end

1 个答案:

答案 0 :(得分:0)

您可以使用String#gsub

a = "hello guys I ne-
ed help"
#=> "hello guys I ne-\n" + "ed help"
a.gsub(/-|\n/, '-' => '', "\n" => '')
#=> "hello guys I need help"

使用您的代码:

reader = PDF::Reader.new(‘text.pdf’)
reader.pages.each do |page|
  page.text.each_line { |line| line.gsub(/-|\n/, '-' => '', "\n" => '')}  
end

或者,如果短划线和新线元素总是在一起替换它们:

a.gsub(/-\n/, '')
#=> "hello guys I need help"