可变通胀因素不适用于数据帧python

时间:2018-01-17 12:59:41

标签: python pandas numpy statistics statsmodels

我有一个(1460, 76)大小的数据集。它目前在pandas Dataframe中,它有各种数据类型:int, float, object。我尝试在此数据框上运行VIF函数以获取我的变量中的相关性,但是,它会抛出此错误:

TypeError: '>=' not supported between instances of 'str' and 'int'

VIF代码:

vif = [variance_inflation_factor(df.values, i) for i in range(df.shape[1])]
print(vif)

可能是什么原因,是因为我的数据中有字符串?

1 个答案:

答案 0 :(得分:0)

听起来有些数据存储为字符串而不是数字数据类型。尝试在数据框中使用pandas.to_numeric

Example applying to_numeric to an entire data frame