我有下面列出的数据集,并且我正尝试按照所述使用panda.read_csv工具读取数据集,但这会引发以下错误
UnicodeDecodeError:'utf-8'编解码器无法解码位置1的字节0xba:无效的起始字节。
我想可能是因为第1列(样本)将字符串与数字混合在一起。
那么将列1转换为字符串然后输入到大熊猫中的最佳方法是什么?
import pandas as pd
data = pd.read_csv('data.csv')
答案 0 :(得分:0)
该错误与数字和字母的混合无关,熊猫只会将其作为字符串读取。
没有看到文件,无法确定,但是输入文件中显然有一些字符不是有效的Unicode字符。我将仔细检查字符编码,然后仅在文本编辑器(而不是excel)中打开文件,以查看前几个字符是什么。
例如,我创建了一个包含以下内容的测试文件
col1,col2,col3
1,foo,1a
2,bar,2
3,baz,c
4,sit,4d
并运行pd.read_csv('testfile.txt')
输出:
col1 col2 col3
0 1 foo 1a
1 2 bar 2
2 3 baz c
3 4 sit 4d