从某些文本中删除损坏的标签和格式不正确的html

时间:2010-08-19 13:07:10

标签: python html-parsing

我有一个庞大的数据库,其中包含我正在插入网站的论坛帖子。然而,很多人试图在他们的论坛帖子中使用html,而且往往做错了。因此,帖子中总会有迷路<strike> <b> </strike> </div> </b>标签,当我添加15个论坛帖子时,最终会搞乱网页格式。

现在我刚刚将所有可能的结束标记附加到帖子上,以便它可以捕获任何打开的标记...有没有更好的方法来解决文本并尝试手动删除每个打开标签。对于loooooong论坛帖子来说,这对于网络应用来说是一笔昂贵的交易。

3 个答案:

答案 0 :(得分:1)

查看HTML Tidy

还有一个Python包装器lib:µTidylib

另外还有HTML Purifier

答案 1 :(得分:0)

Beautiful Soup在HTML清理方面做得不错。

答案 2 :(得分:0)

同时查看lxml