如何从网页中提取特定div的内容?

时间:2012-02-06 06:27:44

标签: php simple-html-dom

我想从网页加载class='box'的特定div的内容,为此我使用了Simple HTML DOM。但是我不能为preg_match写一个明确的模式,这是我的php代码:

<?php
   $url = "http://www.example.com/pages/";
   $page_all = file_get_contents($url); 

   preg_match(...?);


   echo "<pre>";
   print_r($div_array[0]);
   echo "</pre>";
?>

请帮我为preg_match

写一个正确的模式

2 个答案:

答案 0 :(得分:2)

SimpleHtmlDOM:

$html = new simple_html_dom();

// Load from a string
$html->load('<html><body><p>Hello World!</p><p>We're here</p></body></html>');

// Load a file
$html->load_file('http://net.tutsplus.com/');

# get an element representing the second paragraph  
$element = $html->find("div[class=box1]");

#access HTML attr
$element->innertext .= "Somthing";

#save and echo
echo $element->save();

答案 1 :(得分:1)

您应该查看:http://simplehtmldom.sourceforge.net/

一个例子是:

$html = new simple_html_dom();

$html = file_get_html('http://www.example.com/pages/');

$ret = $html->find('div[class=box]');

不要浪费你的时间与正则表达,有工具的工作。