Nokogiri返回奇怪的href链接?

时间:2018-08-15 20:59:24

标签: ruby-on-rails ruby nokogiri

我正在使用GW_STYLE尝试抓取页面上的所有链接。但是,它返回的是格式错误的字符串。

这是我的代码:

nokogiri (~> 1.8.4)

示例输出:

require 'open-uri'
require 'nokogiri'

def all_links
  doc = Nokogiri::HTML(open("https://duckduckgo.com/html/?q=sergey+facebook"))
  links = doc.css('a')
  hrefs = links.map {|link| link.attribute('href').to_s}.uniq.sort.delete_if {|href| href.empty?}
  hrefs
end

该页面上的链接没有这样的href:

enter image description here

我在做什么错?我也尝试使用xpaths并获得了相同的结果。

1 个答案:

答案 0 :(得分:0)

在阅读我的评论后,现在使用parts = href.split('?')CGI.parse(parts.last)['ubbg']进入目标URI。