我在使用来自原始源数据的混合dtypes的id字段读取csv时遇到问题,即id字段可以是11,2R399004,BL327838,7等,但绝大多数都是8个字符长
当我使用多个版本的pd.read_csv和encoding ='iso-8859-1'阅读它时,它总是将7和11转换为00000007等。我尝试过使用utf-8但是我收到以下错误:
UnicodeDecodeError:'utf-8'编解码器无法解码位置40的字节0xc9:意外的数据结束
我尝试过设置dtype = {'field':object}和字符串以及latin-1之类的各种迭代,但它会不断地这样做。
有没有办法绕过这个错误,而无需浏览每个文件并修复dtypes?
答案 0 :(得分:0)
基本上该列看起来像这样
COLUMN_ID 10 HGF6558 059 KP257 0001