想知道是否有人可以帮助解决以下问题。我正在使用Nokogiri从http://www.bbc.co.uk/sport/football/tables
中删除一些数据我想得到联赛表信息,到目前为止我已经得到了这个
def get_league_table # Get me Premier League Table
doc = Nokogiri::HTML(open(FIXTURE_URL))
table = doc.css('.table-stats')
teams = table.xpath('following-sibling::*[1]').css('tr.team')
teams.each do |team|
position = team.css('.position-number').text.strip
League.create!(position: position)
end
end
所以我想我会抓住.table-stats,然后用一个团队类获得表中的每一行,这些行包含我需要的所有信息,比如位置编号,播放,团队名称等。
一旦我进入tr.team,我想我可以做一个循环来从行中获取相关信息。
它是我坚持的xpath部分(除非我接近整个错误?),如何从.table-stats到达tr.team类?
有人可以提供任何指示吗?
由于
答案 0 :(得分:3)
这是我动态解析表格的脚本,我根据你的情况调整了它:
require 'open-uri'
require 'nokogiri'
url = 'http://www.bbc.co.uk/sport/football/tables'
doc = Nokogiri::HTML.parse(open url)
teams = doc.search('tbody tr.team')
keys = teams.first.search('td').map do |k|
k['class'].gsub('-', '_').to_sym
end
hsh = teams.flat_map do |team|
Hash[keys.zip(team.search('td').map(&:text))]
end
puts hsh