我一直试图用Nokogiri解析这些HTML files。这是我正在使用的代码
require 'nokogiri'
doc = Nokogiri::HTML File.open('usc...html', 'r')
children = doc.css('body div')
children.each do |child|
puts child.name
end
为所有子元素打印div
即使它们几乎是完整的p
,h3
和h4
标记。有人可以解释为什么会这样吗?另外,我如何从中获取CSS类?
答案 0 :(得分:1)
此:
doc.css('body div')
将选择页面上的每个div。如果你想要你应该使用的每个元素:
doc.css('*')
您可以使用child[:class]