Question

我有一个套接字服务器，应该从客户端接收UTF-8有效字符。

问题是一些客户端（主要是黑客）正在通过它发送所有错误的数据。

我可以轻松区分真正的客户端，但我正在记录所有发送的数据文件，以便我以后再分析。

有时我会收到像œ这样的字符导致UnicodeDecodeError错误。

我需要能够使用或不使用这些字符来生成字符串UTF-8。

更新

对于我的特定情况，套接字服务是一个MTA，因此我只希望接收ASCII命令，例如：

EHLO example.com
MAIL FROM: <john.doe@example.com>
...

我用JSON记录了所有这些。

然后一些没有良好意图的人决定出售各种垃圾。

这就是为什么对于我的特定情况，剥离非ASCII字符是完全可以的。

Answer 1

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors='replace')

或

str = unicode(str, errors='ignore')

注意： 这将删除（忽略）有问题的字符，在没有它们的情况下返回字符串。

对我来说这是理想的情况，因为我使用它作为非ASCII输入的保护，这是我的应用程序不允许的。

另外：使用codecs模块中的open方法读取文件：

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:

Answer 2

现在我已经转移到Python 3，这种类型的问题突然出现了。我不知道Python 2只是简单地解决了文件编码的任何问题。

我找到了很好的解释差异，以及如何找到解决方案后，上述任何一个都没有。

http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html

简而言之，为了使Python 3的行为与Python 2尽可能相似，使用：

with open(filename, encoding="latin-1") as datafile:
    # work on datafile here

然而，阅读文章，没有一个尺寸适合所有解决方案。

Answer 3

将引擎从C更改为Python为我做了诀窍。

引擎是C：

pd.read_csv(gdp_path, sep='\t', engine='c')

'utf-8'编解码器无法解码位置18中的字节0x92：无效的起始字节

引擎是Python：

pd.read_csv(gdp_path, sep='\t', engine='python')

对我没有错误。

Answer 4

>>> '\x9c'.decode('cp1252')
u'\u0153'
>>> print '\x9c'.decode('cp1252')
œ

Answer 5

我和UnicodeDecodeError有同样的问题，我用这条线解决了。不知道是否是最好的方式，但它对我有用。

str = str.decode('unicode_escape').encode('utf-8')

Answer 6

我只需添加即可解决此问题

df = pd.read_csv(fileName,encoding='latin1')

Answer 7

以防有人遇到同样的问题。我正在使用带有YouCompleteMe的vim，无法使用此错误消息启动ycmd，我所做的是：export LC_CTYPE="en_US.UTF-8"，问题已经消失。

Answer 8

我已使用此代码解决了此问题

df = pd.read_csv(gdp_path, engine='python')

Answer 9

如果您需要对文件进行更改但不知道文件的编码，您可以做什么？如果您知道编码是ASCII兼容的并且只想检查或修改ASCII部分，则可以使用surrogateescape错误处理程序打开该文件：

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

Answer 10

第一种，使用get_encoding_type来获取编码的文件类型：

import os    
from chardet import detect

# get file encoding type
def get_encoding_type(file):
    with open(file, 'rb') as f:
        rawdata = f.read()
    return detect(rawdata)['encoding']

第二个，打开以下类型的文件

open(current_file, 'r', encoding = get_encoding_type, errors='ignore')

UnicodeDecodeError：'utf8'编解码器无法解码字节0x9c

10 个答案: