使用Ruby on Rails进行屏幕刮擦

时间:2009-11-01 18:12:20

标签: ruby-on-rails

是RoR的新手。我想开发一个rails应用程序,可以从我的rails应用程序搜索航班信息,从各个航空公司网站(例如,airasia和马来西亚航空公司)获取航班信息。将这些结果显示在我的rails应用程序中 我的搜索模块应包含以下文本字段:

From: Kuala Lumpur
To: Dubai
Departure Date:2/11/2009
Return date: 19/11/2009
Departure Time: 12:00
Number of tickets: 2

用户可以在我的网站上输入上述信息和
脚本应根据各航空公司网站上的信息搜索航班 使用航空公司提供此航班的标签显示结果。

可以使用“Scrapi”或“Scrubyt”

3 个答案:

答案 0 :(得分:5)

  

有人可以提供帮助吗?

不要。找另一个致富快速方案。或者至少不要依赖屏幕抓取。

它出错的可能性很大。找到另一种方法来获取要聚合的信息。使用API​​(如果存在)并将计划存储在数据库中(它们很少每周更改)。在本地存储东西可以让您的客户更快地完成任务,也可以让您提供更多服务。

以下是屏幕抓取的一些潜在问题:

  • 您正在抓取的网站的轻微更新可能会破坏您的工具。
  • 可以拒绝服务器IP的刮痧尝试。
  • 根据信息,您甚至可能被起诉。

答案 1 :(得分:2)

要开始抓取,您可以参考帖子

http://rorguide.blogspot.com/2011/04/simple-ruby-screen-scraper-using.html (使用Mechanize,Hpricot和XPath的简单Ruby Screen Scraper)

http://rorguide.blogspot.com/2011/04/simple-ruby-screen-scraper-in-just-5.html (简单的Ruby Screen Scraper只需5行而不使用XPath)

这只是为了理解

答案 2 :(得分:0)

咳嗽咳嗽 watir-webdriver(宝石)

DOM无法隐藏