我正在尝试解析一个pdf文件,我希望在该行的末尾没有断字输入,例如:
text.pdf
"hello guys I ne-
ed help"
如何删除“ - ”和换行符以便将“需要”的两个部分粘在一起
这是我的实际代码:
reader = PDF::Reader.new(‘text.pdf’)
reader.pages.each do |page|
page.text.each_line do |line|
words = line.split(” “) # => ["hello"], ["guys"], ["I"], ["ne-"], ["ed"], ["help"]
words.each do |word|
puts word
end
end
答案 0 :(得分:0)
您可以使用String#gsub
:
a = "hello guys I ne-
ed help"
#=> "hello guys I ne-\n" + "ed help"
a.gsub(/-|\n/, '-' => '', "\n" => '')
#=> "hello guys I need help"
使用您的代码:
reader = PDF::Reader.new(‘text.pdf’)
reader.pages.each do |page|
page.text.each_line { |line| line.gsub(/-|\n/, '-' => '', "\n" => '')}
end
或者,如果短划线和新线元素总是在一起替换它们:
a.gsub(/-\n/, '')
#=> "hello guys I need help"