Question

我收到此错误

'ascii'编解码器无法解码位置69中的字节0xc2：序数不在范围（128）

在这行代码上：documents1 = text_file.read().split("\n\n")。我用text_file = open(filepath, "r")

打开文件

通常情况下，我只会坚持.encode('utf-8')，但这只会给出

'str'对象没有属性'encode'

Answer 1

这可能是您的区域设置造成的。如果它设置为UTF-8，那么这应该在Python脚本中按预期工作。

尝试使用此命令查看设置中的charmap：

$ locale charmap
UTF-8

如果您在输出中获得其他内容（例如ISO-8859-1或ANSI_X3.4-1968），则表示您未正确设置UTF-8 ...您可以尝试设置环境变量LC_CTYPE变为en_US.UTF-8（假设英语是您的语言），这可能会解决此问题。

在Python内部，您还可以使用以下命令强制使用默认编码：

text_file = open(filepath, "r", encoding="utf-8")

但如果您的系统设置不正确，您可能会发现其他编码问题...如果可以，请先尝试解决此问题。

祝你好运！