我有一个csv文件,其中的列message
包含文本(主要是英语,但也包含一些特殊字符,如西班牙语或法语)和表情符号。
df = pd.read_csv('myfile.csv', encoding='utf-8')
给我这个错误:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x97 in position 83: invalid start byte
df = pd.read_csv('myfile.csv', encoding='mac_roman')
读取文件ok,但用下划线_________
替换表情符号。与windows-1252
和iso-8859-1
相同。
我尝试了utf-16,32,cp1252等。没有任何效果。
我的目标是保留表情符号,然后使用表情符号python包将其解码为单词(笑脸,大拇指等)。
也许有人遇到类似的问题,可以提出解决办法吗?谢谢!