我正在尝试使用Python和Sklearn创建分类器。我目前已成功导入所有数据。我一直在尝试按照here的教程进行操作,在进行过程中对其进行了一些更改。在项目的后期,我意识到他们的培训和测试数据与我的有很大不同。如果我理解正确,他们会有这样的事情:
X_train = ['Article or News article here', 'Anther News Article or Article here', ...]
y_train = ['Article Type', 'Article Type', ...]
#Same for the X_test and y_test
虽然我有这样的东西:
X_train = [['Dylan went in the house. Robert left the house', 'Where is Dylan?'], ['Mary ate the apple. Tom ate the cake', 'Who ate the cake?'], ...]
y_train = ['In the house.', 'Tom ate the cake']
#Same for the X_test and y_test
当我尝试使用管道训练分类器时:
text_clf = Pipeline([('vect', CountVectorizer(stop_words='english')),
('tfidf', TfidfTransformer(use_idf=True)),
('clf', SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, random_state=42,
verbose=1)),])
我得到了错误:
AttributeError: 'list' object has no attribute 'lower'
在这一行:
text_clf.fit(X_train, y_train)
经过研究后,我现在知道这是因为我要为X_train
数据输入一个数组而不是字符串。
所以我的问题是,我该如何构造一个管道来接受X_train
数据的数组和接受y_train
数据的字符串?这可能与管道有关吗?
答案 0 :(得分:1)
您可以使用tokenizer
属性将CountVectorizer
作为单个文档告诉每个列表,然后将lowercase
选项设置为False
text_clf = Pipeline([('vect', CountVectorizer(tokenizer=lambda single_doc: single_doc,stop_words='english',lowercase=False)),
('tfidf', TfidfTransformer(use_idf=True)),
('clf', SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, random_state=42,
verbose=1)),])