Python 3-熊猫-数据丢失和分箱值

时间:2020-08-03 15:15:05

标签: python-3.x pandas missing-data binning

我有下面的代码,它从CSV文件中提取数据,并且我想对数据集中的变量之一进行一些分析。该变量是一种对象数据类型,它具有许多缺失值。因此,我正在使用pd.to_numeric将它们转换为NaN。然后,我创建了一些bin(1、2、3、4、5)以对变量的值进行分类。但是,我想将NaN作为类别或bin包括在新变量(“ variable_q”)中。例如作为“无数据”类别。那可能吗?我该怎么办?我错过了什么吗?

import pandas as pd
import numpy as np

data=pd.read_csv("dataset.csv")

data["variable"]=pd.to_numeric(data["variable"],errors="coerce")

data["variable_q"]=pd.cut(x=data["variable"],bins=[1,2,3,4,5],labels=["Low","Moderate","High","Extremely High"])

非常感谢您!

1 个答案:

答案 0 :(得分:0)

好吧,我正在对变量进行频率分布,我刚刚意识到在以下代码中添加dropna = False作为自变量即可解决问题。

已创建一个NaN类别!因此无需在上面的代码中添加“无数据”类别。

data [“ variable_q”]。value_counts(sort = False,dropna = False)