我正试图抓住这些列表,并在属于我的客户的网站上为这些工作列表提供更多曝光。问题是我需要能够链接到特定的工作列表,以便求职者申请。 This is the page我正在尝试保存来自。
的列表链接如果我能为求职者保存一个地址,点击查看原始列表然后申请,那将是理想的选择。
如果我无法获得具体地址,我想我可以得到它,以便用户点击一个链接,触发我客户网站上的内部脚本,该链接获取列表ID并搜索我发现列表的网站,并且然后将用户重定向到该特定列表。
这样做的缺点是用户将不得不等待一段时间,具体取决于列表在目录上的距离。我可以通过一个愉快的“搜索您的列表!感谢您耐心等待”消息提供某种进度条。
如果我能避免这样做,那就太好了!
我正在使用Nokogiri和Mechanize。
答案 0 :(得分:0)
您引用的页面似乎是由Oracle产品生成的,因此可以认为他们愿意正确构建Web表单(并参考可访问性问题)。他们没有,所以我发现要么他们的工程师有一个糟糕的一天,要么他们故意让它(稍微)更难刮。
当您将鼠标悬停在这些链接上时,浏览器不显示href
的原因是没有。该页面的作用是使用JavaScript捕获click事件,使用一些隐藏值填充POST表单,并以编程方式调用submit
方法。这可能会导致屏幕阅读器和其他辅助功能设备出现问题,并导致后退按钮重新提交页面的方式出现问题。
好消息是,这种结构通常可以通过自己创建表单来删除,无论是使用第三方页面上的真实表单,还是通过爬虫库。如果您将正确的值发布到目标URI,则通过检查页面的脚本进行反向工程,生成的文档应该是您期望的“链接”页面。