带自定义标签的lxml清洁器?

时间:2010-10-13 21:14:09

标签: python xss lxml

我想使用lxml清理器去除所有的html,但是然后使用正则表达式自动链接:

[ABC] -> <a href="bah bah bah">ABC</a>

没有xss等处理这个问题的正确方法是什么?

1 个答案:

答案 0 :(得分:1)

使用带内联HTML的markdown可能是合适的吗? python markdown模块非常成熟。

查看docs中的“安全模式”部分,了解有关删除内联HTML的详情。

根据您的需要,py-wikimarkup之类的内容可能更合适。

使用自定义正则表达式可能不是一个好主意,因为

  • 您必须向可能已经熟悉markdown / WikiText
  • 的人解释规则
  • 你必须提供一种逃避文本的方法,例如:对于真正想写[ABC]
  • 的人
  • 你必须修复任何错误,包括安全问题