读取CSV混合字符串和数字

时间:2018-09-26 20:36:43

标签: python python-3.x pandas

我有下面列出的数据集,并且我正尝试按照所述使用panda.read_csv工具读取数据集,但这会引发以下错误

  

UnicodeDecodeError:'utf-8'编解码器无法解码位置1的字节0xba:无效的起始字节。

我想可能是因为第1列(样本)将字符串与数字混合在一起。

那么将列1转换为字符串然后输入到大熊猫中的最佳方法是什么?

import pandas as pd
data = pd.read_csv('data.csv')

DATASET

1 个答案:

答案 0 :(得分:0)

该错误与数字和字母的混合无关,熊猫只会将其作为字符串读取。

没有看到文件,无法确定,但是输入文件中显然有一些字符不是有效的Unicode字符。我将仔细检查字符编码,然后仅在文本编辑器(而不是excel)中打开文件,以查看前几个字符是什么。

例如,我创建了一个包含以下内容的测试文件

col1,col2,col3
1,foo,1a
2,bar,2
3,baz,c
4,sit,4d

并运行pd.read_csv('testfile.txt')

输出:

    col1    col2    col3
0   1       foo     1a
1   2       bar     2
2   3       baz     c
3   4       sit     4d