从Ruby中的文本正文中提取值

时间:2011-01-26 01:08:20

标签: ruby regex text extract extraction

我需要从多行字符串中提取一些值(我从电子邮件的文本正文中读取)。我希望能够将模式提供给我的解析器,以便稍后我可以自定义不同的电子邮件。我想出了以下内容:

#!/usr/bin/env ruby

text1 = 
<<-eos
Lorem ipsum dolor sit amet, 

Name: Pepe Manuel Periquita

Email: pepe@manuel.net

Sisters: 1
Brothers: 3
Children: 2

Lorem ipsum dolor sit amet
eos

pattern1 = {
  :exp => /Name:[\s]*(.*?)$\s*
          Email:[\s]*(.*?)$\s*
          Sisters:[\s]*(.*?)$\s*
          Brothers:[\s]*(.*?)$\s*
          Children:[\s]*(.*?)$/mx,
  :blk => lambda do |m|
    m.flatten!
    {:name => m[0],
     :email => m[1],
     :total => m.drop(2).inject(0){|sum,item| sum + item.to_i}}
  end
}

# Scan on text returns 
#[["Pepe Manuel Periquita", "pepe@manuel.net", "1", "3", "2"]]

  def do_parse text, pattern
    data = pattern[:blk].call(text.scan(pattern[:exp]))

    puts data.inspect
  end


do_parse text1, pattern1

# ./text_parser.rb
# {:email=>"pepe@manuel.net", :total=>6, :name=>"Pepe Manuel Periquita"}

因此,我将模式定义为与块配对的正则表达式,以便从匹配中构建哈希。 “解析器”只是通过对正则表达式与扫描文本匹配的结果执行块来获取文本并应用规则。

目前我必须使用text1中显示的格式解析电子邮件,但后来我想尽可能轻松地添加模式以从不同的电子邮件中提取数据(这些电子邮件的格式将针对每种类型进行修复)。因此,我想尽可能简化模式移动到“解析器”。上面的代码工作并提取数据,但大部分工作都位于模式...

这是正确的方法吗?

可以简化,还是会为这个问题考虑不同/更好的解决方案?

更新

我在Tonttu解决方案之后更新了解析器,因此模式哈希现在是:

pattern2 = {
  :exp => /^(.+?):\s*(.+)$/,
  :blk => lambda do |m|
    r = Hash[m.map{|x| [x[0].downcase.to_sym, x[1]]}]

    {:name => r[:name],
     :email => r[:email],
     :total => r[:children].to_i + r[:brothers].to_i + r[:sisters].to_i}
  end
}

1 个答案:

答案 0 :(得分:3)

也许这样的东西足够通用了?

pp Hash[*text1.scan(/^(.+?):\s(.+)$/).map{|x|
     [x[0].downcase.to_sym, x[1]]
   }.flatten]

=>
{:sisters=>"1",
 :brothers=>"3",
 :children=>"2",
 :name=>"Pepe Manuel Periquita",
 :email=>"pepe@manuel.net"}