用于过滤掉JS + iframe的正则表达式

时间:2010-09-19 20:40:47

标签: regex bash

我正在寻找过滤掉的正则表达式:

  • javascript:<script></script>以及介于两者之间的所有内容
  • 在javascript之间还包含:iframe和hostads.cn url

感谢。 我计划在简单的bash脚本中使用该regexp,它将从目录中的文件中删除部分代码。

1 个答案:

答案 0 :(得分:0)

正则表达式不适合解析HTML。它很难实现,容易搞乱,并且通常不是非常有效或准确。考虑将每个文件解析为HTML,然后显式搜索并删除要过滤的元素。另外,要知道如果出于安全原因进行此过滤,恶意脚本和JavaScript仍有可能潜入此类过滤器。