如何在熊猫数据框中管理特殊字符\ r

时间:2018-08-09 09:42:53

标签: python pandas csv character-encoding pickle

在读取csv文件时,符号\r会如何引起熊猫错误?

示例:

test = pd.DataFrame(columns = ['id','text'])
test.id = [1,2,3]
test.text = ['Foo\rBar','Bar\rFoo','Foo\r\r\nBar']
test.to_csv('temp.csv',index = False)
test2 = pd.read_csv('temp.csv')

然后数据帧如下:

测试:

    id  text
0   1   Foo\rBar
1   2   Bar\rFoo
2   3   Foo\r\r\nBar

test2:

    id      text
0   1       Foo
1   Bar     NaN
2   2       Bar
3   Foo     NaN
4   3       Foo\r\r\nBar

请注意,在文本中添加\n可以防止转到另一行。知道发生了什么吗?以及如何防止这种行为?

请注意,由于iIt损坏了文件,它也阻止使用pandas.to_pickle。产生包含以下错误的文件:

Error! ..\my_pickle.pkl is not UTF-8 encoded
Saving disabled.
See Console for more details.

2 个答案:

答案 0 :(得分:1)

尝试添加lineterminatorencoding参数:

test = pd.DataFrame(columns = ['id', 'text'])
test.id = [1, 2, 3]
test.text = ['Foo\rBar', 'Bar\rFoo', 'Foo\r\r\nBar']
test.to_csv('temp.csv', index=False, line_terminator='\n', encoding='utf-8')
test2 = pd.read_csv('temp.csv', lineterminator='\n', encoding='utf-8')

test and test2:

    id  text
0   1   Foo\rBar
1   2   Bar\rFoo
2   3   Foo\r\r\nBar

它对我来说很好用,但也许只是Windows问题(我有MacBook)。还要检查此issue

答案 1 :(得分:1)

为了获得有效的csv数据,所有包含换行符的字段都应使用双引号引起来。

生成的csv应该如下所示:

id  text
1   "Foo\rBar"
2   "Bar\rFoo"
3   "Foo\r\r\nBar"

或:

id  text
1   "Foo
Bar"
2   "Bar
Foo"
3   "Foo


Bar"

如果读者仅将\n视为换行符,则会这样做:

id  text
1   Foo\rBar
2   Bar\rFoo
3   "Foo\r\r\nBar"

要读取csv数据,请确保告诉读者将字段解析为quoted(这可能是默认值)。

解析器可能会尝试自动检测文件中的换行符类型(可能是\n\r\n甚至是\r),也许这就是为什么如果有未引用字段中\r\n的组合。