Hpricot解析图像alt文本

时间:2010-11-05 19:43:21

标签: ruby hpricot

我正在尝试使用Hpricot从页面上的所有图像中提取alt文本,但无法弄清楚如何操作。

以前有人这样做过吗?

谢谢! 丹尼斯

1 个答案:

答案 0 :(得分:2)

这是我第一次使用Hpricot所以要温柔。我认为这会隔离您询问的数据。

require 'rubygems'
require 'hpricot'

page = "<html><body><p>Create a link of an image:<a href=\"default.asp\"><img src=\"smiley.gif\" alt=\"alt_text_1\" width=\"32\" height=\"32\" /></a></p><p>No border around the image, but still a link:<a href=\"default.asp\"><img border=\"0\" src=\"smiley.gif\" alt=\"alt_text_2\" width=\"32\" height=\"32\" /></a></p></body></html>"
doc = Hpricot(page)

doc.search("//img").each do |img|
    puts img.attributes['alt']
end

输出如下:

#=> alt_text_1
#=> alt_text_2