如何在 Pandas 中编码特殊字符。
my_csv:
column A
Id - Number
Id – Column
my_df = pd.read_csv('my_csv.csv', encoding = 'latin-1')
my_df
Id - Number
Id ? Column
在我的 csv 中有一个列,即 A 列有两个值,当我在 Pandas 中读取这个文件时,我的第二个值变成如下所示。我如何读取我在 csv 中的第二个值。
Id - Number --> Id - Number
Id – Column --> Id ? Column --> it should be like Id – Column
答案 0 :(得分:2)
字符 –
(U+2013) En Dash 在大多数 8 位 Windows 代码页中定义为 '\x96'
。
不幸的是,在 'iso-8859-1'
(或 'latin-1'
,如果你愿意),这个字符是 U+0096 Start Of Guarded Area(一个不可打印的字符;因此问题标记为替换字符)。
使用
import pandas as pd
my_df = pd.read_csv('my_csv.csv', encoding = 'cp1252')
my_df
<块引用>
column A
0 Id - Number
1 Id – Column