我的数据框中有两列,并且都是分类的。这些列之一包含拼写错误,我想在其中进行异常检测并尝试使用隔离林。
我在两列上都应用了OneHotEncoding,但是我不知道如何在隔离林中使用这个numpy数组。我将不胜感激。这是我的OneHotEncoding代码
newDF=pd.DataFrame()
labelEncoder = LabelEncoder()
newDF = df.apply(labelEncoder.fit_transform)
enc = OneHotEncoder()
enc.fit(newDF)
onehotlabels = enc.transform(newDF).toarray()
print(onehotlabels)