应用错误收集

引自an answer I posted yesterday：

我听说过一些非常好的事情 Beautiful Soup，HTML Purifier和HTML Agility Pack，它们使用Python，PHP和分别是.NET。相信我 - save yourself some pain并使用它们代替。

我强烈建议您不要使用正则表达式。没有理智的正则表达式会起作用，或者甚至可能接近工作。但是，一个体面的XML解析器可以相当容易地做到这一点。我不确定您可以访问哪些编程语言，但如果您可以使用PHP，.NET或其他编程语言，则可以使用上述解析器查找每个span，style，{{ 1}}和div并删除属性或整个标记。

jQuery为你描述的DOM操作提供了一些很好的功能，你可以使用它来生成HTML然后剪切和粘贴。

如果你绝对必须使用正则表达式，你可以试试这个：

模式：p
更换:(没有）
模式：<\s*/?\s*(span|style|div)\b[^>]*?>
替换：<\s*p\b[^>]*?>

使用Notepad ++删除特定的HTML标记

1 个答案: