熊猫:快速浏览一下柱值

时间:2017-03-09 17:26:50

标签: python pandas

我有一个包含1000多列的庞大数据集。他们中的大多数都包含* NaN' *或只是几个值。手动筛选每列是不合理的浪费时间。如何使用单个命令进行估计列分集,顶部频率值等?

1 个答案:

答案 0 :(得分:0)

首先,您需要获取单个列包含的内容,因此您可以像这样创建一个for循环:

column = [array[i] for i in range(0,len(array), STEP]

其中STEP =文件中的列数

然后你可以随心所欲地做任何事情。回答你的问题, 你可以使用max(column) - min(column),这会给你多样性。 为了获得最常见的价值,我建议你看看:

click