我正在尝试从数据框的一列中的字词返回一个数据框('字' |' count')。
当我尝试作为一个系列和一个数据框时,我一直得到以下错误。也尝试将其列为清单。
AttributeError: 'Series' object has no attribute 'split'
AttributeError: 'DataFrame' object has no attribute 'split'
AttributeError: 'List' object has no attribute 'split'
以下是我的代码(根据本网站的答案进行修改)。
from nltk import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
ngram_vectorizer = CountVectorizer(analyzer = 'word', tokenizer = word_tokenize, ngram_range=(1, 1), min_df = 1)
words = datahitword['clean_word']
X = ngram_vectorizer.fit_transform(words.split('\n'))
vocab = list(ngram_vectorizer.get_feature_names())
counts = X.sum(axis=0).A1
freq_distribution = Counter(dict(zip(vocab, counts)))
print (freq_distribution.most_common(10))
你能帮忙吗?
答案 0 :(得分:0)