如何在熊猫中编码特殊字符?

时间:2021-07-26 14:57:04

标签: python pandas encoding

如何在 Pandas 中编码特殊字符。

my_csv:

column A
Id - Number
Id – Column

my_df = pd.read_csv('my_csv.csv', encoding = 'latin-1')

my_df

Id - Number
Id ? Column

在我的 csv 中有一个列,即 A 列有两个值,当我在 Pandas 中读取这个文件时,我的第二个值变成如下所示。我如何读取我在 csv 中的第二个值。

Id - Number  --> Id - Number
Id – Column  --> Id ? Column  --> it should be like Id – Column

1 个答案:

答案 0 :(得分:2)

字符 (U+2013) En Dash 在大多数 8 位 Windows 代码页中定义为 '\x96'

不幸的是,在 'iso-8859-1'(或 'latin-1',如果你愿意),这个字符是 U+0096 Start Of Guarded Area(一个不可打印的字符;因此问题标记为替换字符)。

使用

import pandas as pd
my_df = pd.read_csv('my_csv.csv', encoding = 'cp1252')
my_df
<块引用>
      column A
0  Id - Number
1  Id – Column