首先,我是NLP的新手,所以我可能以错误的方式或某种方式理解了一个概念
我试图找到一种将整个列矢量化为1个文本的方法,然后在获得结果之后,我想将要使用的模型适合目标集。
我目前正在使用管道对数据框列进行矢量化处理,但是我相信它们是按1对1进行矢量化处理的,而不是将所有列连接在一起然后再进行处理。
这是我的数据集的一个夸大示例:
data target
1 "conventional normal breast cancer test" breast cancer test
2 "regular and conventional normal lung cancer test" lung cancer test
基本上,我想给术语“乳房”和“肺”赋予较高的tfidf分数,因为它是独特的,并且我不希望我的模型将这两种类型的数据误认为是因为它们看起来很相似
我当前的代码:
vectorizer = feature_extraction.text.TfidfVectorizer(ngram_range=(1, 3),
analyzer='word',)
pipe = pipeline.Pipeline([
('vectorizer', vectorizer),
('clf', linear_model.LogisticRegression())])
pipe.fit(X_train, y_train)
y_predicted = pipe.predict(X_test)