我使用Nokogiri
如下:
require 'nokogiri'
require 'open-uri'
# Get a Nokogiri::HTML::Document for the page we’re interested in...
doc = Nokogiri::HTML(open('http://www.google.com/search?q=sparklemotion'))
但我的不好,由于公司防火墙可能,我收到错误:
C:/Ruby193/lib/ruby/1.9.1/net/http.rb:762:in `initialize': getaddrinfo: No such
host is known. (SocketError)
因此我认为我会使用selenium-webdriver
导航并nokogiri
处理网页来源html
。
require "rubygems"
require "selenium-webdriver"
driver = Selenium::WebDriver.for :firefox
driver.get "http://www.google.com/search?q=sparklemotion"
那么我在这里如何将网页内容(html)提供给nokogiri
?
请在这里建议我。
答案 0 :(得分:13)
您可以使用page_source
方法从selenium-webdriver获取页面源:
driver.page_source
所以你的脚本可能是:
require 'selenium-webdriver'
require 'nokogiri'
driver = Selenium::WebDriver.for :firefox
driver.get "http://www.google.com/"
doc = Nokogiri::HTML(driver.page_source)
# Do whatever with nokogiri
那就是说,我不知道为什么你会想要使用nokogiri而不仅仅是selenium-webdriver。