动态排除PHP简单HTML DOM解析器中的内容

时间:2012-11-01 13:06:17

标签: php dom html-parsing

我正在创建一个基于PHP的应用程序,它将使用PHP Simple HTML DOM Parser从站点获取内容。

我想动态地从内容中的两个HTML标记之间排除一些文本。

如果内容的源代码是:

Some description or content ETC ABC <span class="s"> May 3  2009 <b> ABC Some Text </b> Some photo or video...

我想将<span class="s">包裹的所有文字删除到第一个<b> HTML标记,因此输出将为:

Some description or content ETC ABC <span class="s"><b> ABC Some Text </b> Some photo or video...

这应该使用foreach循环完成,并且想法是将所有过滤后的文本放在像$ftext之类的变量中,然后必须应用一些简单的PHP,如:

foreach($html->find('how_to_tell_those_filtered_text_here') as $ftext)
$result = str_replace($ftext, '', $result);
$result = str_get_html($result);

那么,什么应该是解决方案,任何想法?

2 个答案:

答案 0 :(得分:1)

您可以阅读这篇文章PHP Port of Arc90′s Readability一定会帮助您了解Arc 90可读性。

答案 1 :(得分:0)

如果您使用Arc90 HTML内容提取器的可读性

,则会更好