在熊猫中读取CSV时出现编码问题

时间:2018-08-13 20:39:24

标签: python pandas

我正在读取包含一列包含文本数据的CSV文件。由于文件不在utf-8中而遇到编码错误时,我尝试了以下2种解决方案:

解决方案1:

df = pd.read_csv("data_encoded.csv", encoding = 'latin-1')

解决方案2:

I changed the encoding explicitly to utf-8 and used
df = pd.read_csv("data_encoded.csv")

两个解决方案都解决了错误,但是我得到的是垃圾值。例如:

me pretty (changed to)=> me\\r\\rpretty

当我对它们进行标记时,我注意到大多数单词后面都附加了“ \ r”。有什么Python的方法可以删除这些。

我已经实现了以下解决方案:

re.replace
filters based on ("\\r")

我正在寻找一种方法来防止垃圾值首先形成。任何建议都会有帮助

0 个答案:

没有答案