我有下面的代码,它从CSV文件中提取数据,并且我想对数据集中的变量之一进行一些分析。该变量是一种对象数据类型,它具有许多缺失值。因此,我正在使用pd.to_numeric将它们转换为NaN。然后,我创建了一些bin(1、2、3、4、5)以对变量的值进行分类。但是,我想将NaN作为类别或bin包括在新变量(“ variable_q”)中。例如作为“无数据”类别。那可能吗?我该怎么办?我错过了什么吗?
import pandas as pd
import numpy as np
data=pd.read_csv("dataset.csv")
data["variable"]=pd.to_numeric(data["variable"],errors="coerce")
data["variable_q"]=pd.cut(x=data["variable"],bins=[1,2,3,4,5],labels=["Low","Moderate","High","Extremely High"])
非常感谢您!
答案 0 :(得分:0)
好吧,我正在对变量进行频率分布,我刚刚意识到在以下代码中添加dropna = False作为自变量即可解决问题。
已创建一个NaN类别!因此无需在上面的代码中添加“无数据”类别。
data [“ variable_q”]。value_counts(sort = False,dropna = False)