php crawler - 如何使用JSESSIONID处理URL

时间:2011-12-29 13:35:37

标签: php url web-crawler jsessionid

一个。我在xyz.com/items/advsearch上使用了一个简单的网址抓取工具(How do I make a simple crawler in PHP?)。该页面列出了某人进行高级搜索(列出所有结果)后的结果。我必须复制/废弃这些结果。现在,当我去“下一个>”页面,其网址已编码并抓取到“下一步>”的网址让我回到高级搜索的主页面,显示0结果。

湾我注意到的另一件事是:在简单的人类网址遍历中,“下一个>”的网址没有jessionid作为参数,而在使用file_get_contents()获取页面的html时,它有它。为什么会这样?

我发现很难弄乱编码的网址/会话,我无法抓取!需要紧急帮助。

1 个答案:

答案 0 :(得分:0)

jsessionid通常存储并以cookie形式发送。如果Java应用程序注意到客户端可能不支持cookie,则将其添加到链接URL只是一种后备。这可能是为什么在使用Web浏览器遍历页面时没有将jsessionid参数添加到URL中,因为您的浏览器确实正确处理了cookie,而PHP脚本则没有。