我有一个非常大的pandas数据帧。以下是样本
Id description
1 switvch for air conditioner transformer..............
2 control tfrmr...........
3 coling pad.................
4 DRLG machine
5 hair smothing kit...............
对于进一步的过程,我将使用Sckit-learn的countvectorizer构建上述数据的doument-term矩阵
countvec = CountVectorizer()
documenttermmatrix=countvec.fit_transform( dataset['description'])
我必须更正说明中拼写错误的功能。用大数据集的正确拼写单词替换错误拼写的单词需要花费大量时间。
所以我想到使用代码
给出的计数向量化器中的特征列表来修正特征features_names= countvec.get_feature_names()
是否可以使用上面的列表重命名功能,并进一步将其用于分类过程???