我有一个包含1000多列的庞大数据集。他们中的大多数都包含* NaN' *或只是几个值。手动筛选每列是不合理的浪费时间。如何使用单个命令进行估计列分集,顶部频率值等?
答案 0 :(得分:0)
首先,您需要获取单个列包含的内容,因此您可以像这样创建一个for循环:
column = [array[i] for i in range(0,len(array), STEP]
其中STEP =文件中的列数
然后你可以随心所欲地做任何事情。回答你的问题,
你可以使用max(column) - min(column)
,这会给你多样性。
为了获得最常见的价值,我建议你看看: