我正在重新设计一个网站,其中包含从Word粘贴的内容中的一堆标记。我想摆脱字体标记的每个实例。
我还希望摆脱通常用
添加的所有内联样式<span style="font-family:Verdana, etc.;">...</span>
我想保留所有a,em,br,strong标签,所以我不想剥离所有标签只是那些影响内容样式的标签。
这个内容全部在MySQL数据库中,MySQL解决方案比PHP解决方案更受欢迎,但我现在要采取这两种方式。
答案 0 :(得分:1)
也许这不是问题的最佳解决方案,但这就是我正在做的事情。我尝试了一些不同的脚本来从数据库中获取信息,清理它并用PHP发回它,但没有什么真正起作用。我使用的一切都搞砸了数据,而不是它帮助了。 GIGO。
我决定使用javascript(jQuery)从&lt; font&gt;中取出所有属性。标记并清除所有&lt; span&gt;的样式属性和&lt; p&gt;标签。这样做之后一切都很好看。所有未来的内容都将直接进入系统,但所有旧内容都有数据库中仍然存在的丑陋代码,这些代码已经过清理,足以在客户端显示。
答案 1 :(得分:0)
您无法使用RegEx解析HTML,而MySQL则用于存储和检索数据,而不是过滤数据。
只需使用http://htmlpurifier.org/在PHP中清理HTML。