使用Ruby中的Watir / Nokogiri解析网页

时间:2015-01-09 03:00:41

标签: ruby excel nokogiri watir

我尝试为弹出框中包含的纬度和经度解析以下website,但似乎无法使其正常工作。我在Ruby中使用Watir和Nokogiri。代码如下:

require 'watir'
require 'nokogiri'
require 'win32ole'
require 'open-uri'

# Get filename from user
puts "What is the name of the excel file?"
file_name1 = gets.chomp
file_name2 = file_name1 << '.xlsx'

# WIN32OLE
excel = WIN32OLE::new('excel.Application')
excel.visible = true
filepath = excel.Workbooks.Open('C:/users/desktop/ruby/' << file_name2)

url = 'http://webapps2.rrc.state.tx.us/EWA/drillingPermitsQueryAction.do'

# Excel Column Headers
excel.worksheets(2).Cells(1,12).value = "Latitude"
excel.worksheets(2).Cells(1,13).value = "Longitude"

# Watir
browser = Watir::Browser.new  # opens new IE browser
browser.speed = :zippy
browser.goto url  # goes to RRC page

row = 2

while excel.worksheets(2).Cells(row,5).value.nil? == false
browser.text_field(:name, 'searchArgs.apiNoHndlr.inputValue').set excel.worksheets(2).Cells(row,5).value.to_s[0..7]
    browser.button(:value, 'Submit').click   # Clicks the submit button
    browser.select_list(:name, "propertyValue").select 'GIS Viewer'
    page_html = Nokogiri::HTML.parse(browser.html)
    latitude = page_html.css("#printIdentifyWellDiv > table:nth-child(5) > tbody > tr:nth-child(7) > td").text.strip
    longitude = page_html.css("#printIdentifyWellDiv > table:nth-child(5) > tbody > tr:nth-child(8) > td").text.strip
    excel.worksheets(2).Cells(row,12).value = latitude
    excel.worksheets(2).Cells(row,13).value = longitude
    browser.window(:title => "RRC Public GIS Viewer").use do
        browser.button(:id => "close").click
    end
    browser.button(:value, 'Return').click
    row += 1
end

puts "Complete"

问题在于第34和35行(纬度和经度变量)。 Nokogiri似乎无法从弹出窗口解析它们并将它们移动到Excel文件中。我尝试过使用Xpath和CSS路径,但没有取得任何成功。每次运行程序时,相应的Excel文件在纬度和经度列中都会显示为空白。

问题:

  1. 如何解析数据?
  2. 当我的程序运行时,上面链接的地图屏幕将显示在浏览器的第二个选项卡中。
  3. 这是Watir / Nokogiri的问题吗?我是否需要以某种方式选择Nokogiri程序中的选项卡才能解析它?

    感谢您的时间。

1 个答案:

答案 0 :(得分:0)

打开弹出窗口后,您必须告诉watir使用弹出窗口,否则browser.html仍将来自主窗口。

移动此行:

browser.window(:title => "RRC Public GIS Viewer").use do

在浏览器调用

之前