使用watir保存包含css,js和图像的页面

时间:2013-09-10 14:34:51

标签: ruby parsing web-scraping watir watir-webdriver

如何使用watir-webdriver保存包含所有内容的页面? browser.html仅保存浏览器的元素。如果我打开我转储browser.html的文件,则没有样式。

同样browser.html不会保存iframe。我可以循环遍历iframe并单独保存它们,但它们将与主页分开。

我现在只录制htmls,也许以后我会保存截图,因为没有简单的方法可以使用css和图像转储整个页面。

require 'fileutils'
class Recorder

  attr_reader :request, :counter, :browser

  # request should contain w(login_id start_time)
  def initialize(request)
    @request, @counter = request, 1
    # Settings class contains my configs (enable recording, paths, etc.)
    FileUtils.mkpath(path) if Settings.recorder.record and !File.exists?(path)
  end

  def record(hash)
    return unless Settings.recorder.record
    @browser = hash["browser"]
    record_html(hash)
    record_frames(hash)
    @counter += 1
  end

private

  # hash should contain (method_name browser)
  def record_html(hash)
    File.open("#{path}#{generate_file_name(hash)}", "w") do |file|
      file.write("<!--#{browser.url}-->\n")
      file.write(browser.html)
    end
  end

  def record_frames(hash)
    browser.frames.each_with_index do |frame, index|
      File.open("#{path}#{generate_file_name(hash, index + 1)}", "w") do |file|
        file.write("<!--#{browser.url}-->\n")
        file.write(frame.html)
      end
    end
  end

  def path
    "#{Settings.recorder.path}/#{request["login_id"]}/#{request["start_time"]}/"
  end

  def generate_file_name(hash, frame=nil)
    return "#{counter}-#{hash["method_name"]}.html" if frame.nil?
    "#{counter}-frame#{frame}-#{hash["method_name"]}.html"
  end
end

1 个答案:

答案 0 :(得分:-1)

我不知道Watir,但对于那些可能想要使用Selenium WebDriver(Watir包裹)保存页面(包括直接在页面中的CSS和JavaScript)的人,最简单的方法是使用{{ 3}}。顾名思义,它提供了如此完整的资源。然后,这只是保存到新文件的问题,如下所示:

driver = Selenium::WebDriver.for(:firefox)
driver.get(URL_of_page_to_save)
file = File.new(filename, "w")
file.puts(driver.page_source)
file.close

但它不会将JavaScript或CSS保存在其他文件中。