2年前我搁置了一个可以自动下载电视电影列表的Ruby网络剪贴簿,一次播放1周。今天开始再次使用它,发现Ruby既不能访问正在显示的网页的控件或数据。
调试显示脚本现在正在生成加载后续网页的文档。初始脚本在运行时也会修改当前文档(删除链接)。使用的任何URL都会导致加载相同的初始网页。
我正在寻找有关如何继续访问所显示网页中数据的建议。我对javascript知之甚少,但如果我有一个明确的计划,我会追求。我相信我发现href加载第二个网页,但它只会再次加载初始页面,因此其他机制正在运行(即脚本中提到了cookie)。
要下载信息,至少需要28个网页,通常下载电影信息时,处理了数百个网页。
答案 0 :(得分:5)
正如您所发现的那样,您无法使用简单的HTTP请求来抓取带有动态内容的网页。您需要模拟实际使用的网页,以便Javascript运行并生成您需要的内容。这个tutorial可能会帮助你完成你想要完成的任务。