lxml clean打破href属性

时间:2015-06-06 16:26:43

标签: lxml

import lxml.html.clean as clean
cleaner = clean.Cleaner(style=True, remove_tags=['div','span',], safe_attrs_only=['href',])
text = cleaner.clean_html('<a href="http://жк-сочи.рф/">link</a>')
print text

打印

<a href="http://%C3%90%C2%B6%C3%90%C2%BA-%C3%91%C2%81%C3%90%C2%BE%C3%91%C2%87%C3%90%C2%B8.%C3%91%C2%80%C3%91%C2%84/">link</a>

如何获得:

<a href="http://жк-сочи.рф/">link</a>

即正常编码中的href?

1 个答案:

答案 0 :(得分:1)

Template.layout_linto.events({ "click #main-toolbar-toggle": function(event, target) { alert("ok"); }}); 做正确的事 - 括号中的字符串应该被正确编码,而看似乱码的东西是正确的编码。

您可能不知道,但是西里尔域名不存在 - 这是一个复杂的系统,可以将这些域名映射到&#34;允许&#34;字符。