应用错误收集

熊猫读csv添加零

时间：2018-02-07 18:20:39

标签： python pandas csv encoding iso-8859-1

我在使用来自原始源数据的混合dtypes的id字段读取csv时遇到问题，即id字段可以是11,2R399004，BL327838,7等，但绝大多数都是8个字符长

当我使用多个版本的pd.read_csv和encoding ='iso-8859-1'阅读它时，它总是将7和11转换为00000007等。我尝试过使用utf-8但是我收到以下错误：

UnicodeDecodeError：'utf-8'编解码器无法解码位置40的字节0xc9：意外的数据结束

我尝试过设置dtype = {'field'：object}和字符串以及latin-1之类的各种迭代，但它会不断地这样做。

有没有办法绕过这个错误，而无需浏览每个文件并修复dtypes？

1 个答案:

答案 0 :(得分：0)

基本上该列看起来像这样

COLUMN_ID 10 HGF6558 059 KP257 0001