我正在读取包含一列包含文本数据的CSV文件。由于文件不在utf-8中而遇到编码错误时,我尝试了以下2种解决方案:
解决方案1:
df = pd.read_csv("data_encoded.csv", encoding = 'latin-1')
解决方案2:
I changed the encoding explicitly to utf-8 and used
df = pd.read_csv("data_encoded.csv")
两个解决方案都解决了错误,但是我得到的是垃圾值。例如:
me pretty (changed to)=> me\\r\\rpretty
当我对它们进行标记时,我注意到大多数单词后面都附加了“ \ r”。有什么Python的方法可以删除这些。
我已经实现了以下解决方案:
re.replace
filters based on ("\\r")
我正在寻找一种方法来防止垃圾值首先形成。任何建议都会有帮助