应用错误收集

使用2个矢量化器中的任何一个时，我得到相同的结果：

vect=CountVectorizer(min_df=1,  token_pattern=r'[a-zA-Z0-9\-\ ]+')
vX = vect.fit_transform(movies['genres'])
df3=pd.DataFrame(vX.toarray(), columns=vect.get_feature_names())

在任何情况下，我将“必须”使用二进制分析器而不是计数矢量化器吗？

mlb = MultiLabelBinarizer()
mym=mlb.fit_transform(movies['genres'].str.split('|'))
ndf2=pd.DataFrame(mym, columns=mlb.classes_)

或者我可能错过的df3和ndf2有什么区别吗？我的问题是，我只能使用Count Vectroizer吗？

仅使用计数向量器

0 个答案: