我想使用lxml清理器去除所有的html,但是然后使用正则表达式自动链接:
[ABC] -> <a href="bah bah bah">ABC</a>
没有xss等处理这个问题的正确方法是什么?
答案 0 :(得分:1)
使用带内联HTML的markdown可能是合适的吗? python markdown模块非常成熟。
查看docs中的“安全模式”部分,了解有关删除内联HTML的详情。
根据您的需要,py-wikimarkup之类的内容可能更合适。
使用自定义正则表达式可能不是一个好主意,因为
[ABC]