我正在尝试将html页面转换为dom对象,以便从页面中获取信息
以下代码只给我一些错误,所以无论我做什么都是错误的
php代码
$page = file_get_contents('http://google.com');
$dom= new DOMDocument();
$dom->loadHTML($page);
echo $dom->saveHTML();
return;
错误示例
Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseEntityRef: expecting ';' in Entity, line: 34 in C:\xampp\htdocs\site\index.php on line 32
谁能告诉我我应该做什么?
答案 0 :(得分:1)
老实说,我不知道这是否可以解决您的问题,但请尝试以下方法。使用tidy清理html。
$page = file_get_contents('http://google.com');
// Specify configuration
$config = array(
'indent' => true,
'output-xhtml' => true,
'wrap' => 200);
// Tidy
$tidy = new tidy();
$tidy->parseString($page, $config, 'utf8');
$tidy->cleanRepair();
$dom= new DOMDocument();
$dom->loadHTML($tidy);
echo $dom->saveHTML();
return;