数据框列中的快速NLP

时间:2017-10-08 02:22:29

标签: python dataframe nlp token

我正在尝试从数据框的一列中的字词返回一个数据框('字' |' count')。

当我尝试作为一个系列和一个数据框时,我一直得到以下错误。也尝试将其列为清单。

AttributeError: 'Series' object has no attribute 'split'
AttributeError: 'DataFrame' object has no attribute 'split'
AttributeError: 'List' object has no attribute 'split'

以下是我的代码(根据本网站的答案进行修改)。

from nltk import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

ngram_vectorizer = CountVectorizer(analyzer = 'word', tokenizer = word_tokenize, ngram_range=(1, 1), min_df = 1)

words = datahitword['clean_word']

X = ngram_vectorizer.fit_transform(words.split('\n'))

vocab = list(ngram_vectorizer.get_feature_names())

counts = X.sum(axis=0).A1

freq_distribution = Counter(dict(zip(vocab, counts)))
print (freq_distribution.most_common(10))

你能帮忙吗?

1 个答案:

答案 0 :(得分:0)

它抓住了我,我不需要NLP,这些话已经是个人了。我只需要总结一下(计算它们)。