我想使用PHP加载网站的html内容并为某些数据挖掘它。
然而,当网站加载“欢迎!” - 类似页面时,用户必须按下按钮才能进入下一页。如果用户已完成此操作,则欢迎页面将不再加载(我认为这是由于cookie)。
我需要在这个“欢迎”页面后面加载html数据。
有没有办法绕过这个欢迎页面并访问它背后的页面?也许通过手动向服务器发送一个硬编码的cookie来说明用户以前去过该网站?
该网站似乎有年龄请求的Cookie以及会话ID。这是我从HTTP请求中得到的:
Cookie: age_check=1; expires=Tue, 03 Jan 2012 11:57:23 GMT; path=/; domain=.youporn.com
Cookie: screen_width=1024; expires=Tue, 03 Jan 2012 11:57:23 GMT; path=/; domain=.youporn.com
Cookie: sid=rcAYeE8BssaK93YGZz82Ag==; expires=Wed, 01-Jan-14 13:36:06 GMT; domain=.youporn.com; path=/
答案 0 :(得分:0)
这完全取决于其他网站。看起来,您知道用户在所述网站上按下的这个额外按钮等。如果是这种情况,您可以直接加载此欢迎页面后面的页面(实质上是单击按钮)。这假定您已知道用户是否已访问此站点(即,他们是否已经看过此欢迎页面并且之前已点击过)。如果您正在询问如何获取该信息,那么另一个网站可能必须拥有一些您可以访问的API。