我正在尝试使用Nokogiri来抓取网页。现在,我可以在网页上设置以下变量链接:
links = page.css('.item_inner')
和链接是:
Nokogiri::XML::NodeSet
然后我遍历这个NodeSet(链接):
links.each{|link| puts link.css('.details a')}
为了获得更多信息。但现在上面的方法现在是:
Fixnum
并返回一个列表(我不确定它们究竟返回了什么,但它看起来像是这些列表:
<a se:clickable:target="true" href="/nyc/sale/1056207-coop-150-sullivan-street-soho-new-york?featured=1">150 Sullivan Street #34</a>
现在我知道其中有键/值对,但此时我无法访问它们。我如何访问这里说href和实际名称?
答案 0 :(得分:1)
将单个链接作为节点后,其href为link['href']
等等,链接文本(“150 Sullivan Street”)为其content
注意:css
搜索总是产生实际上是找到的节点数组(实际上是NodeSet)。如果您确定搜索中只能找到某个内容,则可以使用at_css
来跳过该内容,从而产生单个节点。