网站上的HTML
<ul id="blahlist">
<li><a href="http://blahblah.com">blah blah</a></li>
<li><a href="http://blahblah2.com">blah blah 2</a></li>
......
</ul>
我的代码
$dom = new simple_html_dom();
$dom->load_file( "blah.html" );
$div_category = $dom->find("#blahlist");
foreach ($div_category as &$ul){
$a_list = $ul->find("a");
foreach ( $a_list as &$anchor){
$csv_array=array($anchor->plaintext, $anchor->getAttribute("href") );
fputcsv($csv_out, $csv_array);
print_r($anchor);
}
问题是它只显示第一行(第一行)而不显示blahlist中列表的其余部分。难道我做错了什么?与<li>
有关的事情可能在第一行之后停止了吗?
答案 0 :(得分:1)
怎么样
$dom->find("#blahlist li");
要抓住 li
下的所有#blahlist
s 。
答案 1 :(得分:1)
使用正则表达式进行刮擦:
$html = <<<EOF
<ul id="blahlist">
<li><a href="http://blahblah.com">blah blah</a></li>
<li><a href="http://blahblah2.com">blah blah 2</a></li>
<li><a href="http://blahblah2.com">blah blah 3</a></li>
<li><a href="http://blahblah2.com">blah blah 4</a></li>
</ul>
EOF;
$ul_id = "blahlist";
if (preg_match("#<ul[^<>]+id=[\"']?{$ul_id}[\"']?[^<>]*>([\s\S]+?)</ul>#i", $html, $match))
{
$lis = $match[1];
preg_match_all("#<li[^<>]*>\s*<a[^<>]+href=[\"']?([^<>\"']+)[\"']?[^<>]*>([\s\S]+?)</a>#i", $lis, $matches);
foreach ($matches[1] as $k => $href) {
$href = strip_tags($href);
$text = strip_tags($matches[2][$k]);
print "$text [$href]<br>";
}
}
您只需在此行编辑ul列表的ID:
$ul_id = "blahlist";
结果:
blah blah [http://blahblah.com]
blah blah 2 [http://blahblah2.com]
blah blah 3 [http://blahblah2.com]
blah blah 4 [http://blahblah2.com]