如何通过DOM传递Age Verification

时间:2014-03-03 06:36:07

标签: php image dom cookies curl

我正在尝试从Steam商店页面中提取一些图片网址,例如: http://store.steampowered.com/app/35700/
http://store.steampowered.com/app/252490/

这是我正在使用的代码:

$url = 'http://store.steampowered.com/app/35700/';
$html = file_get_contents($url);
$dom = new domDocument;
$dom->loadHTML($html);
$dom->preserveWhiteSpace = false;
$images = $dom->getElementsByTagName('img');
foreach ($images as $image) {
  echo $image->getAttribute('src');
}

它适用于第一个商店页面,但第二个重定向到年龄验证页面,脚本从那里返回图像。我需要一种方法让脚本超过年龄验证并访问实际的商店页面。

任何帮助都将不胜感激。

编辑:

这是提交年龄表时传递给服务器的内容:

snr=1_agecheck_agecheck__age-gate&ageDay=1&ageMonth=January&ageYear=1979

以及它设置的Cookie:

lastagecheckage=1-January-1979; expires=Tue, 03 Mar 2015 19:53:42 GMT; path=/; domain=store.steampowered.com
birthtime=662716801; path=/; domain=store.steampowered.com

EDIT2:

我可以使用cURL设置cookie但是DOM loadHTML不使用它们,所以我得到了和以前一样的结果。我需要一种方法让loadHTML使用我设置的特定cookie,或者另一种方法来获取将使用由cURL设置的cookie的图像URL。

2 个答案:

答案 0 :(得分:6)

解决!这是工作代码:

$url = 'http://store.steampowered.com/app/35700/';

$ch = curl_init();

curl_setopt($ch, CURLOPT_COOKIE, "birthtime=28801; path=/; domain=store.steampowered.com");
curl_setopt($ch, CURLOPT_TIMEOUT, 5); 
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

$result = curl_exec($ch);

$dom = new domDocument;
libxml_use_internal_errors(true);
$dom->loadHTML($result);
$dom->preserveWhiteSpace = false;

$images = $dom->getElementsByTagName('img');
foreach ($images as $image) {
  $src = $image->getAttribute('src');
  echo $src.PHP_EOL;
}

curl_close($ch);

答案 1 :(得分:4)

你正在寻找php答案,但我试图在python中做同样的事情,这是最相关的问题。你的php答案帮助了我,所以也许python解决方案可以帮助别人。我在Python 2.7中使用python-requests的解决方案:

    import requests

    url = 'http://store.steampowered.com/app/252490/'
    cookie = {
            'birthtime' : '28801',
            'path' : '/',
            'domain' : 'store.steampowered.com'
            }

    r = requests.get(url, cookies=cookie)
    assert (r.status_code == 200 and r.text.find('Please enter your birth date to continue') < 0), ("Failed to retrieve page for {url}. Error={code}.".format(url=url, code=r.status_code))

    print r.text.encode('utf-8')