Question

我正在处理格式错误的html页面，因此需要进行一些清理工作。 http://validator.w3.org/整洁功能可以产生我想要的精确输出。但是，我想将HTML文件清理为更大的Python脚本的一部分。我试过了：

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是，尽管tidylib工作正常，但输出并不像w3那样“漂亮”。我还找到了library for w3c markup validation service，但我找不到一种方法来清理HTML。我的问题是：什么是使用Python脚本清理HTML的最佳方法（可以调用外部程序/ Web解决方案） - 最好的方法是由w3生成输出。我是否应该使用tidylib的其他选项，是否有适合w3c标记验证服务的库中的方法，或者我应该尝试其他方法。指针/代码片段很受欢迎。

Answer 1

您可以通过tidylib.BASE_OPTIONS

设置整洁的选项

PyTidy example

Tidy options quick ref

HTML整洁与python

1 个答案: