Python数据框限制值

时间:2017-03-12 23:59:53

标签: python dataframe types

可能是初学者的问题: 我有一个非常大的数据集,存储在CSV文件中。在该数据集的第1列中,只有四个潜在值('a','b','c',nan)。
我正在加载此数据集     pandas.read_csv 为了节省内存,我可以为此列声明一种特殊类型吗?此类型应仅允许这四个值,这样每个条目只需要3位。在查看相应的列时,我想保持'a','b','c'和nan出现。 非常感谢!

1 个答案:

答案 0 :(得分:0)

如果您使用的是Python 3,则可以使用内置的 Enum 类,该类在此处记录:https://docs.python.org/3/library/enum.html

至于只使用3位,我说实话,并说在使用Python时,对内存的严格要求是不寻常的。但是,您可以考虑使用Pypi" bitarray"在这里找到:https://pypi.python.org/pypi/bitarray/0.8.1