好的还是屏幕抓取的新事物。
我已设法登录我需要的网站但现在如何重定向到另一个页面? 在我登录后,我正在尝试在我需要的页面上执行另一个GET请求,但它有一个重定向,它将我带回登录页面。
所以我认为SESSION变量没有被传递,我怎么能过来呢?
问题:
即使我发布了第二页网址,它仍会将我重定向回登录页面,除非我已经登录,但屏幕抓取代码不允许传递SESSION数据?
我从another screen scraper question here @stack
找到了这段代码class Curl {
public $cookieJar = "";
public function __construct($cookieJarFile = 'cookies.txt') {
$this->cookieJar = $cookieJarFile;
}
function setup() {
$header = array();
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: en-us,en;q=0.5";
$header[] = "Pragma: "; // browsers keep this blank.
curl_setopt($this->curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7');
curl_setopt($this->curl, CURLOPT_HTTPHEADER, $header);
curl_setopt($this->curl, CURLOPT_COOKIEJAR, $cookieJar);
curl_setopt($this->curl, CURLOPT_COOKIEFILE, $cookieJar);
curl_setopt($this->curl, CURLOPT_AUTOREFERER, true);
curl_setopt($this->curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($this->curl, CURLOPT_RETURNTRANSFER, true);
}
function get($url) {
$this->curl = curl_init($url);
$this->setup();
return $this->request();
}
function getAll($reg, $str) {
preg_match_all($reg, $str, $matches);
return $matches[1];
}
function postForm($url, $fields, $referer = '') {
$this->curl = curl_init($url);
$this->setup();
curl_setopt($this->curl, CURLOPT_URL, $url);
curl_setopt($this->curl, CURLOPT_POST, 1);
curl_setopt($this->curl, CURLOPT_REFERER, $referer);
curl_setopt($this->curl, CURLOPT_POSTFIELDS, $fields);
return $this->request();
}
function getInfo($info) {
$info = ($info == 'lasturl') ? curl_getinfo($this->curl, CURLINFO_EFFECTIVE_URL) : curl_getinfo($this->curl, $info);
return $info;
}
function request() {
return curl_exec($this->curl);
}
}
致电班级
include('/var/www/html/curl.php');
$curl = new Curl();
$url = "here.com";
$newURL = "here.com/newpage.php";
$fields = "usr=user1&pass=PassWord";
// Calling URL
$referer = "http://here.com/index.php";
$html = $curl->postForm($url, $fields, $referer);
$html = $curl->get($newURL);
echo $html; // takes me back to $url instead of $newURL
答案 0 :(得分:4)
以下行不使用“$ this”且$ cookieJar不在本地范围内:
curl_setopt($this->curl, CURLOPT_COOKIEJAR, $cookieJar);
curl_setopt($this->curl, CURLOPT_COOKIEFILE, $cookieJar);
所以看起来应该是这样的:
curl_setopt($this->curl, CURLOPT_COOKIEJAR, $this->cookieJar);
curl_setopt($this->curl, CURLOPT_COOKIEFILE, $this->cookieJar);
如果这不能解决问题,请尝试并仅发布帖子:
$curl->postForm($url, $fields, $referer);
而不是
$curl->get($newURL)
然后检查cookie.txt文件是否包含任何内容?它被创造了吗?让我们知道结果,因为如果没有实际的网址,很难快速测试您的代码。
如果它没有创建cookie.txt文件,那么几乎可以保证在请求之间不保留会话。
答案 1 :(得分:0)
也许这个例子不正确..但从它的外观来看,域名正在改变..所以here.com会话不会在there.com上存在
答案 2 :(得分:0)
该网站可能正在尝试将会话ID存储在Cookie中。您已经设置curl以通过“cookies.txt”文件使用cookie。所以,我的第一个想法是 - cookies.txt文件中有什么?脚本是否具有实际创建该文件的权限?
答案 3 :(得分:0)
通过使用$ curl-> get($ newURL)代替$ curl-> postForm($ url,$ fields,$ referer),这可以正常工作;