如何使用hpricot从超链接中提取网址?

时间:2011-06-21 07:30:54

标签: ruby screen-scraping hpricot

我想从超链接中获取实际的url字符串。我希望我的结果不会被删除。

所以,如果我的一个输入字符串是

<a href="http://target.com/resource.tar.gz">resource</a>

我想得到:

http://target.com/resource.tar.gz

我该怎么做?

1 个答案:

答案 0 :(得分:1)

在Hpricot中,您可以使用方括号访问元素的属性(就像访问Hash中的元素时一样)。所以,使用你的例子:

doc = Hpricot('<a href="http://target.com/resource.tar.gz">resource</a>')

puts doc.at('a')['href']  # => http://target.com/resource.tar.gz