Question

仅使用以下功能来实现以下每个功能模板 CountVectorizer和TfIdTransformer。我有训练，开发，测试数据。

这是我的样本火车数据：

Train_dataset = ['This is country of srilanka','This  was very much', ' hi bro how are you']

a。仅表示具有二进制值（基线）的单词出现。
b。删除停用词（这些词是英语中最常见的词）。
C。代表单词的词频。

Answer 1

您需要做的只是从python列表中创建一个数据框。
然后使用 nltk 库创建一个自定义函数，该库具有所有 stopwords 的主体，如果那里有一些不相关的标签，请删除预处理数据。

示例代码：

stop = set(stopwords.words('english')) #set of stopwords
Now you can check iterating over your data and remove the stopwords

然后说您清除了文本，就像下面的count＆tfidf一样

count_vect = CountVectorizer()
X_train = count_vect.fit_transform(X_train_data['CleanedText'])
X_test = count_vect.transform(X_test_data['CleanedText'])
print(X_train.shape) 
print(X_test.shape)

注意：X_train，X_test是countvectorizer之后的变换矢量化器

与tfidf相同，

tf_idf_vect = TfidfVectorizer()
X_train = tf_idf_vect.fit_transform(X_train_data['CleanedText'])
X_test = tf_idf_vect.transform(X_test_data['CleanedText'])
print(X_train.shape)
print(X_test.shape)

注意：X_train，X_test是tfidf矢量化器之后的转换矢量化器

更多信息，您可以找到我的实现here

我希望这可以帮助...谢谢：）

如何在大数据集（Train，Dev，Test）上使用CountVectorizer和TfidfTransformer？

1 个答案: