有网站,当我在浏览器上打开特定的ajax请求时,我得到了结果页面,但是当我尝试用curl加载它们时,我收到服务器的错误。
如何正确模拟对模拟浏览器的服务器的get请求?
这就是我正在做的事情:
$url="https://new.aol.com/productsweb/subflows/ScreenNameFlow/AjaxSNAction.do?s=username&f=firstname&l=lastname";
ini_set('user_agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)');
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
$result=curl_exec($ch);
print $result;
答案 0 :(得分:65)
您确定curl模块是否支持ini_set('user_agent',...)?在http://docs.php.net/function.curl-setopt处描述了CURLOPT_USERAGENT选项 是否还有服务器测试过的cookie?您可以使用CURLOPT_COOKIE,CURLOPT_COOKIEFILE和/或CURLOPT_COOKIEJAR来处理。
编辑:由于请求使用https,验证证书时可能也有错误,请参阅CURLOPT_SSL_VERIFYPEER。
$url="https://new.aol.com/productsweb/subflows/ScreenNameFlow/AjaxSNAction.do?s=username&f=firstname&l=lastname";
$agent= 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_URL,$url);
$result=curl_exec($ch);
var_dump($result);
答案 1 :(得分:0)
我会举一个例子,
首先确定您要模拟的浏览器,在这种情况下,我选择了Firefox 60.6.1esr (64-bit)
,并检查发出了什么GET请求,这可以通过一个简单的netcat服务器(MacOS捆绑了netcat,大多数Linux发行版捆绑了netcat和Windows)获得用户可以从.. Cygwin.org以及其他地方获取netcat,
设置netcat服务器以监听端口9999:nc -l 9999
现在在Firefox中击中http://127.0.0.1:9999,我得到了:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Upgrade-Insecure-Requests: 1
现在让我们将其与以下简单脚本进行比较:
<?php
$ch=curl_init("http://127.0.0.1:9999");
curl_exec($ch);
我得到:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
Accept: */*
这里缺少几个标头,可以使用curl_setopt的CURLOPT_HTTPHEADER选项将其全部添加,但是User-Agent
应该特别用CURLOPT_USERAGENT设置(它将在多次调用curl_exec()时保持不变,如果您使用CURLOPT_FOLLOWLOCATION,那么它也将在HTTP重定向中持续存在),而Accept-Encoding
标头应使用CURLOPT_ENCODING进行设置(如果使用CURLOPT_ENCODING进行设置,则如果服务器选择压缩响应,则curl将自动解压缩响应,但是如果您通过CURLOPT_HTTPHEADER进行设置,那么您必须自己手动检测并解压缩内容,这是一个痛苦的过程,并且通常来说完全没有必要),因此添加以下内容:
<?php
$ch=curl_init("http://127.0.0.1:9999");
curl_setopt_array($ch,array(
CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
CURLOPT_ENCODING=>'gzip, deflate',
CURLOPT_HTTPHEADER=>array(
'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language: en-US,en;q=0.5',
'Connection: keep-alive',
'Upgrade-Insecure-Requests: 1',
),
));
curl_exec($ch);
现在运行该代码,我们的netcat服务器将获得:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept-Encoding: gzip, deflate
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
Upgrade-Insecure-Requests: 1
瞧!我们的PHP模拟的browser
GET请求现在应该与真正的Firefox GET请求没有区别了:)
这下一部分只是挑剔,但如果仔细观察,您会发现标头以错误的顺序堆叠,firefox将Accept-Encoding
标头放在第6行,而我们模拟的GET请求将它在第3行中。要解决此问题,我们可以手动将Accept-Encoding标头放在右行
<?php
$ch=curl_init("http://127.0.0.1:9999");
curl_setopt_array($ch,array(
CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
CURLOPT_ENCODING=>'gzip, deflate',
CURLOPT_HTTPHEADER=>array(
'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language: en-US,en;q=0.5',
'Accept-Encoding: gzip, deflate',
'Connection: keep-alive',
'Upgrade-Insecure-Requests: 1',
),
));
curl_exec($ch);
运行该命令,我们的netcat服务器将获得:
$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Upgrade-Insecure-Requests: 1
问题已解决,现在标头的顺序正确,并且实际的firefox请求似乎是完全不能区分:)(我实际上不建议这最后一步,保持CURLOPT_ENCODING与自定义Accept-Encoding标头同步的维护负担,而且我从未遇到标头顺序很重要的情况)