以下是我正在使用的代码。
它从textarea读取链接,然后获取源代码并最终过滤元标记。但是它只显示数组中的最后一个元素。
因此,例如,如果我将3个网站放入textarea,它只会读取最后一个,其他网站只显示为空白。
花了好几个小时尝试这个,请帮助。
function file_get_contents_curl($url)
{
$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
$data = curl_exec($ch);
curl_close($ch);
return $data;
}
if(isset($_POST['url'])){
$url = $_POST['url'];
$url = explode("\n",$url);
print_r($url);
for($counter = 0; $counter < count($url); $counter++){
$html = file_get_contents_curl($url[$counter]); // PASSING LAST VALUE OF ARRAY
$doc = new DOMDocument();
@$doc->loadHTML($html);
$nodes = $doc->getElementsByTagName('title');
$title = $nodes->item(0)->nodeValue;
$metas = $doc->getElementsByTagName('meta');
for ($i = 0; $i < $metas->length; $i++){
$meta = $metas->item($i);
if($meta->getAttribute('name') == 'description')
$description = $meta->getAttribute('content');
if($meta->getAttribute('name') == 'keywords')
$keywords = $meta->getAttribute('content');
}
print
('
<fieldset>
<table>
<legend><b>URL: </b>'.$url[$counter].'</legend>
<tr>
<td><b>Title:</b></td><td>'.$title.'</td>
</tr>
<tr>
<td><b>Description:</b></td><td>'.$description.'</td>
</tr>
<tr>
<td><b>Keywords:</b></td><td>'.$keywords.'</td>
</tr>
</table>
</fieldset><br />
');
}
}
答案 0 :(得分:4)
这是一个令人讨厌的小虫子 - 但这是(荒谬简单)的解决方案:
您的网址会添加空白区域,除了最后一个网址之外的所有网址都需要修剪,您可以执行以下操作:
curl_setopt($ch, CURLOPT_URL, trim($url));
如果可用,您可能刚刚使用file_get_contents()
(仍需要修剪网址)。
第二个问题是,如果没有meta
数据,则使用旧变量(来自前一个循环),因此在主循环结束之前,在print()
添加以下内容之后:
unset($title,$description,$keywords);