PHP cURL抓取特定的HTML

时间:2010-12-08 22:13:13

标签: php curl html-parsing

我正在使用这个PHP:

<?php

$curl_handle=curl_init();
curl_setopt($curl_handle,CURLOPT_URL,'http://www.notrly.com/jackbauer/');
curl_setopt($curl_handle,CURLOPT_CONNECTTIMEOUT,2);
curl_setopt($curl_handle,CURLOPT_RETURNTRANSFER,1);
$buffer = curl_exec($curl_handle);
curl_close($curl_handle);

if (empty($buffer))
{
    print "Not today";
}
else
{
    print $buffer;
}
?>

我想要提取和显示源中有一个带有“fact”类的p标签!我该怎么做?如果我用这个来从他们的网站上抓取其他人的HTML,它也是反对版权的​​吗?

3 个答案:

答案 0 :(得分:2)

如果您想使用cURL,请下载页面并使用DOM解析器,如:

http://simplehtmldom.sourceforge.net/

或者你可以这样做:

include_once('simple_html_dom.php');

$dom = file_get_html('http://www.notrly.com/jackbauer/');

foreach($dom->find("div.head div.fact p.fact") as $element)
    die($element->innertext);

答案 1 :(得分:0)

查看strpos查看字符串...

if (strpos($buffer, '<p class="fact">') !== FALSE) {
  print "Yay";
}

答案 2 :(得分:0)

我会查看此question答案中提到的HTML解析器。至于版权问题,我认为这取决于很多因素,包括:

  • 你在做什么内容
  • 您使用了多少内容
  • 您网站的版权是什么? 正在刮痧