Question

假设我已经解析了以下的一行HTML ...

<a href="http://www.google.com" class="blah"><img src="logo.png" border="0"></img><br><span class="red">Go to google!</span></a>

这只是一个例子......但除了以下内容之外，我将如何剥离所有内容：

http://www.google.com
logo.png
Go to google!

此外，是否可以搜索通配符？

Answer 1

如果你可以使用一些宝石，那将是一项非常简单的工作。我建议你Mechanize gem。参考：http://mechanize.rubyforge.org/Mechanize.html

Answer 2

也许是这样的：

doc = Nokogiri::HTML '<a href="http://www.google.com" class="blah"><img src="logo.png" border="0"></img><br><span class="red">Go to google!</span></a>'
doc.xpath('//*/@href|//*/@src|//*/text()').map(&:to_s)

通过Ruby中的Nokogiri解析HTML节点中的内容

2 个答案: