我正在尝试阅读Kaggle上提供的Sentiment140.csv:https://www.kaggle.com/kazanova/sentiment140
我的代码就是这个:
import pandas as pd
import os
cols = ['sentiment','id','date','query_string','user','text']
BASE_DIR = ''
df = pd.read_csv(os.path.join(BASE_DIR, 'Sentiment140.csv'),header=None, names=cols)
这给了我这个错误:
UnicodeDecodeError:'utf-8'编解码器无法解码位置中的字节 80-81:无效的继续字节
我想了解的是:
1)如何解决此问题?
2)根据错误,在哪里可以看到我应该使用哪种编码类型而不是“ utf-8”?
3)使用其他编码方法会在以后引起我其他问题吗?
预先感谢
P.s。我在Mac上使用python3
答案 0 :(得分:0)
这有效: https://investigate.ai/investigating-sentiment-analysis/cleaning-the-sentiment140-data/
结果为encoding="latin-1"
,则必须指定列名,否则它将使用第一行作为列名。这就是糟糕的现实世界数据集可能是哈哈