Question

我有一个包含1000多列的庞大数据集。他们中的大多数都包含* NaN＆＃39; *或只是几个值。手动筛选每列是不合理的浪费时间。如何使用单个命令进行估计列分集，顶部频率值等？

Answer 1

首先，您需要获取单个列包含的内容，因此您可以像这样创建一个for循环：

column = [array[i] for i in range(0,len(array), STEP]

其中STEP =文件中的列数

然后你可以随心所欲地做任何事情。回答你的问题，你可以使用max(column) - min(column)，这会给你多样性。为了获得最常见的价值，我建议你看看：