如何在大数据集(Train,Dev,Test)上使用CountVectorizer和TfidfTransformer?

时间:2019-11-26 04:06:32

标签: python-3.x machine-learning sentiment-analysis

仅使用以下功能来实现以下每个功能模板 CountVectorizer和TfIdTransformer。我有训练,开发,测试数据。

这是我的样本火车数据:

Train_dataset = ['This is country of srilanka','This  was very much', ' hi bro how are you']

a。仅表示具有二进制值(基线)的单词出现。
b。删除停用词(这些词是英语中最常见的词)。
C。代表单词的词频。

1 个答案:

答案 0 :(得分:0)

您需要做的只是从python列表中创建一个数据框。
然后使用 nltk 库创建一个自定义函数,该库具有所有 stopwords 的主体,如果那里有一些不相关的标签,请删除预处理数据。

示例代码:

stop = set(stopwords.words('english')) #set of stopwords
Now you can check iterating over your data and remove the stopwords

然后说您清除了文本,就像下面的count&tfidf一样

count_vect = CountVectorizer()
X_train = count_vect.fit_transform(X_train_data['CleanedText'])
X_test = count_vect.transform(X_test_data['CleanedText'])
print(X_train.shape) 
print(X_test.shape)

注意:X_train,X_test是countvectorizer之后的变换矢量化器​​

与tfidf相同,

tf_idf_vect = TfidfVectorizer()
X_train = tf_idf_vect.fit_transform(X_train_data['CleanedText'])
X_test = tf_idf_vect.transform(X_test_data['CleanedText'])
print(X_train.shape)
print(X_test.shape)

注意:X_train,X_test是tfidf矢量化器之后的转换矢量化器​​

  

更多信息,您可以找到我的实现here


我希望这可以帮助...谢谢:)