奇怪的UTF-8单线解释器错误

时间:2016-10-12 17:53:07

标签: python python-3.x utf-8 character-encoding

所以,我对这个程序有一种不圣洁的憎恶:

print((lambda raw, name_file: ((lambda start_time, total, lines, names: ((lambda parsed: ('\n'.join(str(10*(parsed[0][name]+parsed[1][name]/2)/total).ljust(6) + name for name in names)))(list(map(lambda x: __import__("collections").Counter(x), map(lambda x: list(map(lambda x: x[1], x)), [list(group[1]) for group in __import__("itertools").groupby(sorted([list(group[1])[0] for group in __import__("itertools").groupby(sorted(list(map(lambda x: [x[3], ' '.join([x[4], x[5], x[6]]), __import__("datetime").datetime.strptime(x[0] + ' ' + x[1], '%Y.%m.%d %H:%M:%S')], map(str.split, filter(lambda x: (any(name.strip() in x for name in names) and "OK ( 0 )" in x), lines))))), lambda x: (x[0], x[1]))], key = lambda x: (x[2], x[1], x[0])), lambda x: ((x[2] < start_time+__import__("datetime").timedelta(days=7)) + (x[2] < start_time+__import__("datetime").timedelta(days=14))))]))))))(__import__("datetime").datetime.strptime(raw.readline().strip(), '%d.%m.%Y %H:%M'), int(raw.readline()), map(lambda x: x.replace("Минчен", ""), raw.readlines()), list(map(str.strip, name_file.readlines())))))(raw = open("test.txt", "r"), name_file = open("names.txt", "r")))

(可能在pastebin上更好)

几乎有效,但它工作的方式非常奇怪,对我来说看起来像是一个解释器错误。

现在,代码中唯一的非ASCII字符最后都在字符串“Минчен”中,即使这样,它们也完全兼容UTF-8,这应该是默认编码。现在,问题是,Python抛出了这个错误:

Non-UTF-8 code starting with '\xd1' in file lulz.py on line 1, but no encoding declared;

这不仅仅是一些奇怪的编码问题!如果我删除字符串中的最后一个“н”,程序运行就好了;当我在其中添加任何俄语字母时,解释器崩溃了。即使我只在这个地方之前添加一个换行符,只是为了使这个字符串在源代码的第二行,解释器不会崩溃。

当然,我不能提供 Minimal 示例,考虑到这是多么挑剔和不稳定,但我很确定这不是预期的行为。这是解释器中的错误还是我做错了什么?

顺便说一下,它可能需要“names.txt”和“test.txt”;如果要测试,可以使用这些名称创建两个空文件。

UPD 即使在任何单个( 之后添加空格,一切都会有效!这里肯定是错的。

UPD2 我使用的是Python 3.5.1

>>> python3 --version Python 3.5.1

UPD3 这是我的file.

UPD4 ,这是一个hexdump:http://pastebin.com/5R1rbtc3

UPD5 显然,这个问题只能在Mac上重现。我觉得在不同的平台上不同的行为是不打算的。

2 个答案:

答案 0 :(得分:1)

该错误是您对默认源文件编码的期望。 当你使用Python 3.x时,它只有UTF-8(我检查过,3.5解析了没有问题的憎恶)

Python 2.x默认为ASCII,因此在这个令人厌恶的行中添加一个编码注释作为第一行,你很高兴

# -*- coding: utf8 -*-

答案 1 :(得分:0)

字符本身没有编码 - 说字符是UTF-8没有意义。 UTF-8只是可用于表示角色的众多编码之一。您的程序中确实有非ASCII字符,并且根据错误,源文件将以UTF-8以外的编码保存。由于未在源文件中声明非UTF-8编码,因此Python不知道使用什么编码而不是UTF-8,从而导致错误。最好的解决方案是告诉编辑器使用UTF-8保存文件,但显然这样做的过程将特定于编辑器。