在pandas中指定dtype

时间:2013-11-22 19:10:46

标签: python pandas

我在加载具有数十万行的文本文件时遇到问题(示例可以下载here)。我通过以下方式加载文件:

import pandas as pd
data = pd.read_csv('file_name.txt', sep='|', skiprows=[1])

我主要关注:“州代码”,“城市代码”和“站点ID”列,它们作为对象/浮点数导入。但是,我需要保留任何前导零,所以我尝试打开指定dtype:

data = pd.read_csv('file_name.txt', sep='|', skiprows=[1], dtype='string')

这会在我的数据框中产生乱码,所以我尝试指定编码:

data = pd.read_csv('file_name.txt', sep='|', dtype='string', encoding='latin-1')

这会产生另一个乱码。我还尝试使用字典按列指定dtype:

types = {'State Code':'string','County Code':'string','Site ID':'string'}
tmp = pd.read_csv('file_name.txt', sep='|', skiprows=[1], dtype=types)

一切都无济于事。

我搜索了论坛,并完成了网络搜索,似乎我正在做的事情应该有效。有什么想法吗?

0 个答案:

没有答案