我正在使用PHP Simple HTML DOM Parser从页面中提取网址列表,如下所示:
<?php
include('simple_html_dom.php');
$url = 'http://www.domain.com/';
$html = file_get_html($url);
foreach($html->find('table[width=370]') as $table)
{
foreach($table->find('a') as $item)
echo $item->outertext . '<br><hr>';
}
$html->clear();
?>
在提取所需信息的情况下,它的工作正常,但是,某些的a标签(在domain.com上)的格式如下:
<a href="http://www.domain.com"><font size="2">Anchor text</font></a>
而在其他情况下,字体大小在包含每个标记的p标记中定义,这意味着标记显示为:
<a href="http://www.domain.com">Anchor text</a>
有没有办法从那些带有它的标签中去掉字体标签?它可能非常简单,但是我一直在'环中跑来跑去'试图这么做:(
感谢您提出的任何想法或建议。
汤姆。