我有一个数据集,其中包含许多列和大量行,其中一列是na
。我想做类似df.dropna()
的事情,但是要按列进行,目的是在没有na
的情况下最大化行数。
数据集上的一些背景。 。 。许多列可以被视为“核心”数据集的一部分,而这些核心列几乎总是没有na。其他列(非核心)的完整性较差,但完整性有所不同。在非核心列中,没有模式可以确定是否缺少值-一列中缺少数据的行不太可能会丢失另一列中的数据。
是否有确定的方法可以解决此问题?如果不 。 。
我当时认为有可能:
有人有做这样的经历吗?
谢谢