我正在使用Amazon Web Service获取各种商品的产品说明。问题是亚马逊的内容包含标记,有时会破坏我的网页布局(例如未封闭的DIV等)。
我想清理从亚马逊获得的内容。我的解决方案是执行以下操作(到目前为止我的初始列表):
div
,span
等,同时保留p
,ul
,ol
等标记style
个属性)在我尝试构建我的解决方案之前,我想知道是否有人有更好的想法(或已有的解决方案)。感谢。
答案 0 :(得分:1)
这是否是最好的主意:
删除多余的空格:
preg_replace('/\s+/', ' ', trim($v))
从HTML元素中删除属性:
preg_replace('/<([^\s>]+) [^>]+>/', '<$1>', $v)
删除特定元素:
preg_replace('/<\/?(div|span)[^>]*>/', '', $v)