Question

我尝试使用sklearn将两个文本数据分类为3个类别。但是我得到了

＆＃34;属性错误：未找到低位＆＃34;

跑步时。

代码：

train, test = train_test_split(df, random_state=42, test_size=0.3, shuffle=True)
X_train = train.contents
X_test = test.contents
Y_train = train.category
Y_test = test.category

clf_svc = Pipeline([('vect', CountVectorizer()),
                    ('tfidf', TfidfVectorizer(tokenizer=',', use_idf=True, stop_words="english")),
                    ('clf', OneVsRestClassifier(LinearSVC(), n_jobs=1)),
                    ])

clf_svc = clf_svc.fit(X_train, Y_train)
predicted_svc = clf_svc(X_test)
print(np.mean(predicted_svc == Y_test))

Dataframe（df）由2列组成：内容（长文本数据）和类别（文本数据）。内容是被删除的文本，因此包含数十或数百个单词，并且类别是单个单词，例如＆＃34; A＆＃34;，＆＃34; B＆＃34;。

我已经在stackoverflow中检查了过去的问题，但我无法解决这个错误我很高兴知道解决方案或代码本身的问题任何建议和答案将不胜感激。

提前致谢。

Answer 1

删除步骤('vect', CountVectorizer())或使用TfidfTransformer代替TfidfVectorizer，因为TfidfVectorizer期望字符串数组作为输入，CountVectorizer()返回出现的矩阵（即数字矩阵）。

默认TfidfVectorizer(..., lowercase=True)会尝试＆＃34;小写＆＃34;所有字符串，因此“AttributeError: lower not found”错误消息。

参数tokenizer也需要可调用（函数）或None，因此不要指定它。

python sklearn pipiline fit：＆＃34; AttributeError：lower not found＆＃34;

1 个答案: