抓取似乎没有网址的网页

时间:2013-09-28 15:25:49

标签: ruby web-scraping screen-scraping nokogiri mechanize-ruby

我正试图抓住这些列表,并在属于我的客户的网站上为这些工作列表提供更多曝光。问题是我需要能够链接到特定的工作列表,以便求职者申请。 This is the page我正在尝试保存来自。

的列表链接

如果我能为求职者保存一个地址,点击查看原始列表然后申请,那将是理想的选择。

  1. 这个网站做了什么,没有为这些网页添加网址
  2. 是否可以提供特定于列表的地址
  3. 如果可能,我该如何生成该地址?
  4. 如果我无法获得具体地址,我想我可以得到它,以便用户点击一个链接,触发我客户网站上的内部脚本,该链接获取列表ID并搜索我发现列表的网站,并且然后将用户重定向到该特定列表。

    这样做的缺点是用户将不得不等待一段时间,具体取决于列表在目录上的距离。我可以通过一个愉快的“搜索您的列表!感谢您耐心等待”消息提供某种进度条。

    如果我能避免这样做,那就太好了!

    我正在使用Nokogiri和Mechanize。

1 个答案:

答案 0 :(得分:0)

您引用的页面似乎是由Oracle产品生成的,因此可以认为他们愿意正确构建Web表单(并参考可访问性问题)。他们没有,所以我发现要么他们的工程师有一个糟糕的一天,要么他们故意让它(稍微)更难刮。

当您将鼠标悬停在这些链接上时,浏览器不显示href的原因是没有。该页面的作用是使用JavaScript捕获click事件,使用一些隐藏值填充POST表单,并以编程方式调用submit方法。这可能会导致屏幕阅读器和其他辅助功能设备出现问题,并导致后退按钮重新提交页面的方式出现问题。

好消息是,这种结构通常可以通过自己创建表单来删除,无论是使用第三方页面上的真实表单,还是通过爬虫库。如果您将正确的值发布到目标URI,则通过检查页面的脚本进行反向工程,生成的文档应该是您期望的“链接”页面。

相关问题