在 "twill" documentation page 上写道:
默认情况下,斜纹会运行页面 在处理之前通过整洁 他们。默认情况下启用此选项 解析的 Python 库 HTML 在处理错误的 HTML 方面非常糟糕,并且经常会这样做 返回错误的结果“真实 世界“网页。禁用此功能 功能,设置配置do_run_tidy 0
但整理内的整洁程序在哪里?我已经下载了“ twill 0.9 ”和looked into "twill" folder contents - 我找不到这样一个名为“整洁”的文件(或模块)
答案 0 :(得分:1)
twill使用整齐的命令行版本。调用整洁来清理代码的方法位于utils.py中,名为“run_tidy
”。它由命令'tidy_ok
'调用,命令在commands.py
如果 use_tidy 设置为true(默认情况下是这样), ConfigurableParsingFactory 中的_cleanup_html
方法会调用run_tidy
方法