HTML整洁与python

时间:2012-07-09 08:55:26

标签: python html htmltidy

我正在处理格式错误的html页面,因此需要进行一些清理工作。 http://validator.w3.org/整洁功能可以产生我想要的精确输出。但是,我想将HTML文件清理为更大的Python脚本的一部分。我试过了:

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是,尽管tidylib工作正常,但输出并不像w3那样“漂亮”。我还找到了library for w3c markup validation service,但我找不到一种方法来清理HTML。 我的问题是:什么是使用Python脚本清理HTML的最佳方法(可以调用外部程序/ Web解决方案) - 最好的方法是由w3生成输出。我是否应该使用tidylib的其他选项,是否有适合w3c标记验证服务的库中的方法,或者我应该尝试其他方法。指针/代码片段很受欢迎。

1 个答案:

答案 0 :(得分:2)

您可以通过tidylib.BASE_OPTIONS

设置整洁的选项

PyTidy example

Tidy options quick ref