如何从ruby中的字符串中拆分值

时间:2014-05-08 07:49:29

标签: ruby-on-rails ruby regex xml-parsing html-parser

此处列出了我的示例字符串。我想将数组或散列中的每个值结果拆分为每个元素的过程值。

<div id="test">
           accno:          123232323 <br>
           id:            5443534534534 <br>
           name:            test_name <br>
           url:                  www.google.com <br>

 </div>

如何获取散列或数组中的每个值。

2 个答案:

答案 0 :(得分:4)

使用正则表达式很简单:

s = '<div id="test">
           accno:          123232323 <br>
           id:            5443534534534 <br>
           name:            test_name <br>
           url:                  www.google.com <br>

 </div>'

 p s.scan(/\s+(.*?)\:\s+(.*?)<br>/).map.with_object({}) { |i, h| h[i[0].to_sym] = i[1].strip }

或者如果它们只包含小写字母,您可以使用([a-z]+)来确定您的密钥(accno,id,name,url):

 p s.scan(/\s+([a-z]+)\:\s+(.*?)<br>/).map.with_object({}) { |i, h| h[i[0].to_sym] = i[1].strip }

结果:

 {:accno=>"123232323", :id=>"5443534534534", :name=>"test_name", :url=>"www.google.com"}

<强>更新

以下情况:

<div id="test"> accno: 123232323 id: 5443534534534 name: test_name url: www.google.com </div>

正则表达式将是:

 /([a-z]+)\:\s*(.*?)\s+/

([a-z]+) - 这是哈希密钥,它可能包含-_,然后只需添加:([a-z]+\-_)。这个方案假定在密钥跟随:之后(可能有空格)然后一些文本直到空格。如果行没有空格,则最后为(\s+|<)url: www.google.com</div>

答案 1 :(得分:1)

如果您正在处理html,请使用nokogiri之类的html / xml解析器,使用CSS selector提取所需<div>标记的文本内容。然后将文本解析为字段。

安装nokogiri:

gem install nokogiri

然后处理页面和文字:

require "nokogiri"
require "open-uri"

# re matches: spaces (word) colon spaces (anything) space
re_fields  = /\s+(?<field>\w+):\s+(?<data>.*?)\s/

# Somewhere to store the results
record = {}

page      = Nokogiri::HTML( open("http://example.com/divtest.html") )

# Select the text from <div id=test> and scan into fields with the regex 
page.css( "div#test" ).text.scan( re_fields ){ |field, data|
    record[ field ] = data
}
p record

结果:

{"accno"=>"123232323", "id"=>"5443534534534", "name"=>"test_name", "url"=>"www.google.com"}

如果您正在处理多个元素,page.css( "blah" )选择器也可以作为数组进行访问,这些元素可以通过.each

循环
# Somewhere to store the results
records    = []

# Select the text from <div id=test> and scan into fields with the regex 
page.css( "div#test" ).each{ |div| 
    record = {}
    div.text.scan( re_fields ){ |field, data|
        record[field] = data
    }
    records.push record
}
p records