所以我对刮擦很新,并且在使用Mechanize抓取aspx页面方面进展顺利,但是我碰到了一堵砖墙。我只是得到页面并使用puts打印身体。尝试在Rby中获取页面时,正文中存在多个错误。在浏览器中,处理请求需要3-5秒。我认为有一个AJAX调用,但在使用Fiddler和Wireshark之后我无法确定具体请求,可能是由于我缺乏能力。如果有人可以提供帮助,我会在这里上传所有源文件。我无法提供实际的网站,因为它需要我登录。
www.dropbox.com/sh/1pxdlv3woybl9bv/8OQQjuzz32
page.txt is from the browser
output.txt is from ruby
.js for relevant javascript
编辑:抱歉,我无法正确格式化,请点击此链接,输出错误
https://www.dropbox.com/sh/1pxdlv3woybl9bv/4oW8tNmc1t/output.txt