我正在构建一个向我们的网站发布网络文章的小工具。我们的用户很多时候都是直接从Microsoft Word复制粘贴到我的所见即所得编辑器中。编辑器复制所有Word隐藏标记。
我要解决的主要问题是删除<span>
。 Word经常会在<span>
标记后引入很多样式属性。例如:<span style=" Arial, sans-serif; font-size: 10pt; ">
。
有没有办法删除整个span标签?正则表达式?
答案 0 :(得分:1)
如果你开始使用正则表达式,你可以尝试像
这样的东西"/^(<span)+([A-Za-z0-9=,;:])*(>)+$/"
(<span)+(>)+
捕获开始和结束标记,中间部分应捕获内联声明的任何属性。然后你可以使用php preg_replace用空引号或类似的东西替换所有出现的这种模式。