我正在处理格式错误的html页面,因此需要进行一些清理工作。 http://validator.w3.org/整洁功能可以产生我想要的精确输出。但是,我想将HTML文件清理为更大的Python脚本的一部分。我试过了:
from tidylib import tidy_document
tidy, errors = tidy_document(html)
但是,尽管tidylib工作正常,但输出并不像w3那样“漂亮”。我还找到了library for w3c markup validation service,但我找不到一种方法来清理HTML。 我的问题是:什么是使用Python脚本清理HTML的最佳方法(可以调用外部程序/ Web解决方案) - 最好的方法是由w3生成输出。我是否应该使用tidylib的其他选项,是否有适合w3c标记验证服务的库中的方法,或者我应该尝试其他方法。指针/代码片段很受欢迎。