我正在进行一些文本处理,我需要将所有文本转换为小写,但是文本是法语,我需要保留所有的变音符号,以便“È”转换为“è”,如果它有帮助,我实际上不需要最终输出作为文本,只需要每个唯一字符的标识符(例如数字)(其中“e”和“è”是不同的字符)。有什么建议吗?
答案 0 :(得分:2)
使用Unicode字符串:
>>> u"É".lower()
'é'
答案 1 :(得分:0)
我认为您的问题是您正在转换为ascii。 如果您尝试类似
的内容word = u"HÈLLO"
print word.lower()
应该这样做