有任何方法可以提取HTML
页面的内容,该页面以<body>
开头,以</body>
结尾。如果有人可以发布一些示例代码。
答案 0 :(得分:6)
您应该查看DOMDocument
参考。
此示例读取html文档,创建DOMDocument
并获取正文标记:
libxml_use_internal_errors(true);
$dom = new DOMDocument;
$dom->loadHTMLFile('http://example.com');
libxml_use_internal_errors(false);
$body = $dom->getElementsByTagName('body')->item(0);
echo $body->textContent; // print all the text content in the body
您还应该查看以下资源:
答案 1 :(得分:1)
$html = file_get_html('http://www.example.com/');
$body = $html->find('body');
答案 2 :(得分:1)
您还可以尝试使用基于strpos
函数的非DOM解决方案:
$html = file_get_contents($url);
$html = substr($html,stripos($html,'<body>')+6);
$html = substr($html,0,strripos($html,'</body>'));
stripos
是strpos
的不区分大小写的版本,strripos
是strpos
的不区分大小写的“最右侧位置”版本。
希望它能帮到你!