Question

我有美丽的汤问题。我尝试在字符串中删除html标签，因此我有以下功能

def cleanHtml(self, html):
    try:
        soup = BeautifulSoup(html);
        content = soup.findAll(text=True)
        return ''.join(content);
    except:
        print html

我现在这样做：

print {'title' : string_with_german_umlauts}
print {'title' : self.cleanHtml(string_with_german_umlauts)}

我为字符串'LederGürtel'（意为皮带）获得以下输出

{'title': 'Leder G\xc3\xbcrtel'}
{'title': u'Leder G\xfcrtel'}

对于变音符号'ü'，正确的编码当然是\ xc3 \ xbc。在努力工作一整天后，我会放弃并询问; - ）

我感谢任何帮助 THX

Answer 1

您的结果中有变音符号的事实是预期的行为。美丽的汤处理unicode，所以这是预期的。这里有什么问题？是你在字典中没有看到变音符号吗？如果是这样，那根本不是问题，因为在打印时，变音符号将正确显示：

>>> d = {'title': u'Leder G\xfcrtel'}
>>> for k in d:     
...     print k, d[k]
...
title Leder Gürtel

希望这有帮助

Python美丽的汤编码

1 个答案: