Question

我有下面列出的数据集，并且我正尝试按照所述使用panda.read_csv工具读取数据集，但这会引发以下错误

UnicodeDecodeError：'utf-8'编解码器无法解码位置1的字节0xba：无效的起始字节。

我想可能是因为第1列（样本）将字符串与数字混合在一起。

那么将列1转换为字符串然后输入到大熊猫中的最佳方法是什么？

import pandas as pd
data = pd.read_csv('data.csv')

Answer 1

该错误与数字和字母的混合无关，熊猫只会将其作为字符串读取。

没有看到文件，无法确定，但是输入文件中显然有一些字符不是有效的Unicode字符。我将仔细检查字符编码，然后仅在文本编辑器（而不是excel）中打开文件，以查看前几个字符是什么。

例如，我创建了一个包含以下内容的测试文件

col1,col2,col3
1,foo,1a
2,bar,2
3,baz,c
4,sit,4d

并运行pd.read_csv('testfile.txt')

输出：

    col1    col2    col3
0   1       foo     1a
1   2       bar     2
2   3       baz     c
3   4       sit     4d