我正在使用以下内容进行删除 - 代码可以工作并将我想要的所有东西都拉出来 - 没什么复杂的。
原始网站使用相对网址,因此抓取的HTML不起作用。
如何对其进行修改,以便将http://wales.gov.uk/添加到每个网址的前面?
(我不想使用,因为我可能想要在一个页面上加入多个刮擦)
我无法弄清楚文档。
干杯
<?php
// includes Simple HTML DOM Parser
include "simple_html_dom.php";
$html_code="http://wales.gov.uk/consultations/education/?status=open&lang=en";
// echo $html_code;
$html = file_get_html($html_code);
// Loop through all divs with class=.topic-item"
foreach($html->find('.topic-item') as $e){
echo $e->outertext . '<br>';
}
// Clear dom object
$html->clear();
unset($html);
?>
对于它的价值,输出位于:http://h100g.org.uk/news/news4.html
答案 0 :(得分:0)
类似的东西:
foreach($html->find('.topic-item') as $e){
$e->href = 'http://wales.gov.uk/'.$e->href;
}