Question

我在jupyter中使用众所周知的20个新闻组数据集进行文本分类。当我尝试在Mac上打开并读取文件时，它在解码步骤失败。我尝试以字节格式读取文件，但是我还需要将其作为字符串使用。我试图对它进行编码，但它失败并出现错误。

代码

with open(file_path, 'rb') as f:
  file_read=f.read()
  file_read.decode("us-ascii")

错误

UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in position 11597: ordinal not in range(128)

Us-ascii是我在终端输入时找到的文件编码：file -I file_name。我尝试了其他编码但没有效果。我还想删除标点符号并计算文件中的单词。有没有办法解决这个问题？

Answer 1

不看文件很棘手。然而，这在大多数时间都适用

from codecs import open
file_path = "file_name"
with open(file_path, 'rb') as f:
  file_read=f.read()

Answer 2

设置错误忽略解决问题，谢谢N M.代码如下：

ref_file=open(ref_file_path, 'r', encoding='ascii', errors='ignore') 
file_read=ref_file.read()

代码进一步将其视为一个大字符串。请注意，虽然错误是关于解码0xff，但它不是UTF-16编码。