标签: python html-parsing
我有一个庞大的数据库,其中包含我正在插入网站的论坛帖子。然而,很多人试图在他们的论坛帖子中使用html,而且往往做错了。因此,帖子中总会有迷路<strike> <b> </strike> </div> </b>标签,当我添加15个论坛帖子时,最终会搞乱网页格式。
<strike> <b> </strike> </div> </b>
现在我刚刚将所有可能的结束标记附加到帖子上,以便它可以捕获任何打开的标记...有没有更好的方法来解决文本并尝试手动删除每个打开标签。对于loooooong论坛帖子来说,这对于网络应用来说是一笔昂贵的交易。
答案 0 :(得分:1)
查看HTML Tidy
还有一个Python包装器lib:µTidylib
另外还有HTML Purifier
答案 1 :(得分:0)
Beautiful Soup在HTML清理方面做得不错。
答案 2 :(得分:0)
同时查看lxml。
lxml