刮标题标签的内容

时间:2016-11-24 12:02:05

标签: php html

我想获取下面给出的标题标签的内容:

<h1 style="BACKGROUND-COLOR: white; line-height: 2em; margin:0 .5em .2em .5em; padding: 4px 8px 4px 8px; border-radius: 10px;-moz-border-radius: 10px; -webkit-border-radius: 10px; border: 1px solid silver;text-decoration:none; font-size: 2.1em;">Seminar Report</h1><div style='position:relative; visibility:visible; width:100%; overflow:auto;' align='center'>

我可以使用file_get_html()file_get_contents()吗?

这是我使用var_dump($html);

时得到的结果
object(simple_html_dom)#1 (23) { ["root"]=> object(simple_html_dom_node)#2 (9) { ["nodetype"]=> int(5) ["tag"]=> string(4) "root" ["attr"]=> array(0) { } ["children"]=> array(2) { [0]=> object(simple_html_dom_node)#3 (9) { ["nodetype"]=> int(2) ["tag"]=> string(7) "comment" ["attr"]=> array(0) { } ["children"]=> array(0) { } ["nodes"]=> array(0) { } ["parent"]=> RECURSION ["_"]=> array(2)

等等

当我使用var_dump($ html-&gt; find('h1'));我得到

array(1) { [0]=> object(simple_html_dom_node)#48 (9) { ["nodetype"]=> int(1) ["tag"]=> string(2) "h1" ["attr"]=> array(1) { ["style"]=> string(233) "BACKGROUND-COLOR: white; line-height: 2em; margin:0 .5em .2em .5em; padding: 4px 8px 4px 8px; border-radius: 10px;-moz-border-radius: 10px; -webkit-border-radius: 10px; border: 1px solid silver;text-decoration:none; font-size: 2.1em;" } ["children"]=> array(0) { } ["nodes"]=> array(1) { [0]=> object(simple_html_dom_node)#49 (9) { ["nodetype"]=> int(3) ["tag"]=> string(4) "text" ["attr"]=> array(0) { } ["children"]=> array(0) { } ["nodes"]=> array(0) { } ["parent"]=> *RECURSION* ["_"]=> array(1) { [4]=> string(14) "Seminar Report" } ["tag_start"]=> int(0) ["dom":"simple_html_dom_node":private]=> object(simple_html_dom)#1 (23) { ["root"]=> object(simple_html_dom_node)#2 (9) { ["nodetype"]=> int(5) ["tag"]=> string(4) "root" ["attr"]=> array(0) { } ["children"]=> array(2) { [0]=> object(simple_html_dom_node)#3 (9) { ["nodetype"]=> int(2) ["tag"]=> string(7) "comment" ["attr"]=> array(0) { } ["children"]=> array(0) { } ["nodes"]=> array(0) { } ["parent"]=> *RECURSION* ["_"]=> array(2) { [0]=> int(1) [4]=> string(23) "" } 

1 个答案:

答案 0 :(得分:0)

我相信使用file_get_html($url)很容易:

$html = file_get_html('http://www.google.com/');
echo $html->find('h1')->plaintext;

备注

  • 确保添加了SimpleHTMLDom库。
  • 以上代码使用http://www.google.com/作为示例。您应该将其替换为您的网址。
  • 以上代码仅获得第一个<h1>的文字输出。