是什么让这个jsessionid出现在这个PHP代码结果上?

时间:2013-06-28 05:23:23

标签: php dom html-parsing simple-html-dom

我想在此网站上进行解析:CiteSeerx Result

我试过了:

<?php

include('simple_html_dom.php');
$url = 'http://citeseerx.ist.psu.edu/search?q=mean&t=doc&sort=rlv&start=0';
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$curl_scraped_page = curl_exec($ch);

$html = new simple_html_dom();
$html->load($curl_scraped_page);

foreach ($html->find('div.result h3') as $title) {
   echo $title->plaintext . '<br/>';
}
echo '---<br>';

foreach ($html->find('div.result h3 a') as $link) {
   echo '\'http://citeseeerx.ist.psu.edu' . $link->href . '<br>';
}
echo '---<br>';

foreach ($html->find('div.pubinfo') as $info){
   echo $info->innertext. '<br>';
}
echo '---<br>';

foreach ($html->find('div.snippet') as $snippet){
   echo $snippet->innertext. '<br>';
}
?>

它起作用并且给了我想要的东西,就是这个jsessionid=...出现在$link结果的每一行上。

我该怎么做让它消失?我用Google搜索解决了这个问题,但我找到的只是用Java解决它的方法,而不是PHP。 感谢。

1 个答案:

答案 0 :(得分:1)

 <a class="remove doc_details" href="/viewdoc/summary;jsessionid=103B4C6E9ADA3C8B17DD64BD57238F9D?doi=10.1.1.160.3832">

因为标签中的href包含会话ID部分:)