我正在使用GW_STYLE
尝试抓取页面上的所有链接。但是,它返回的是格式错误的字符串。
这是我的代码:
nokogiri (~> 1.8.4)
示例输出:
require 'open-uri'
require 'nokogiri'
def all_links
doc = Nokogiri::HTML(open("https://duckduckgo.com/html/?q=sergey+facebook"))
links = doc.css('a')
hrefs = links.map {|link| link.attribute('href').to_s}.uniq.sort.delete_if {|href| href.empty?}
hrefs
end
该页面上的链接没有这样的href:
我在做什么错?我也尝试使用xpaths并获得了相同的结果。
答案 0 :(得分:0)
在阅读我的评论后,现在使用parts = href.split('?')
和CGI.parse(parts.last)['ubbg']
进入目标URI。