应用错误收集

从某些文本中删除损坏的标签和格式不正确的html

时间：2010-08-19 13:07:10

标签： python html-parsing

我有一个庞大的数据库，其中包含我正在插入网站的论坛帖子。然而，很多人试图在他们的论坛帖子中使用html，而且往往做错了。因此，帖子中总会有迷路<strike> <b> </strike> </div> </b>标签，当我添加15个论坛帖子时，最终会搞乱网页格式。

现在我刚刚将所有可能的结束标记附加到帖子上，以便它可以捕获任何打开的标记...有没有更好的方法来解决文本并尝试手动删除每个打开标签。对于loooooong论坛帖子来说，这对于网络应用来说是一笔昂贵的交易。

3 个答案:

答案 0 :(得分：1)

查看HTML Tidy

还有一个Python包装器lib：µTidylib

另外还有HTML Purifier

答案 1 :(得分：0)

Beautiful Soup在HTML清理方面做得不错。

答案 2 :(得分：0)

同时查看lxml。