Question

我正在尝试从数据框的一列中的字词返回一个数据框（＆＃39;字＆＃39; |＆＃39; count＆＃39;）。

当我尝试作为一个系列和一个数据框时，我一直得到以下错误。也尝试将其列为清单。

AttributeError: 'Series' object has no attribute 'split'
AttributeError: 'DataFrame' object has no attribute 'split'
AttributeError: 'List' object has no attribute 'split'

以下是我的代码（根据本网站的答案进行修改）。

from nltk import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

ngram_vectorizer = CountVectorizer(analyzer = 'word', tokenizer = word_tokenize, ngram_range=(1, 1), min_df = 1)

words = datahitword['clean_word']

X = ngram_vectorizer.fit_transform(words.split('\n'))

vocab = list(ngram_vectorizer.get_feature_names())

counts = X.sum(axis=0).A1

freq_distribution = Counter(dict(zip(vocab, counts)))
print (freq_distribution.most_common(10))

你能帮忙吗？

Answer 1

它抓住了我，我不需要NLP，这些话已经是个人了。我只需要总结一下（计算它们）。

数据框列中的快速NLP

1 个答案: