不尝试解析HTML,但试图从RSS(XML)标签之间删除。那也是险恶的吗?使用它:
preg_replace('/\<\/description\>(?:.|\n)*\<content:encoded\>/', '</description><content:encoded>', $content);
并得到(在apache中)
AH00052: child pid 24919 exit signal Segmentation fault (11)
甚至
pcre.recursion_limit = 1000
然后输出又回来了。
RSS中有多个项目,每个项目(许多其他标签)<description></description>
后跟<content:encoded>
。但有一段时间网页在</description>
和<content:encoded>
之间徘徊。如果正则表达式不是更好的替代方式?