如何从原始语料库中获取特定的远程单词?

时间:2016-03-26 16:07:53

标签: python python-3.x nlp corpus

import nltk   
import nltk.data    

nltk.corpus.brown    
y= nltk.corpus.brown.raw()  
print(y)

当我print(y)时,它会显示此语料库中的所有原始数据, 但我想从这个原始语料库中只得到10,000个单词。 我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:2)

你可以这样做:

import random
words = nltk.corpus.brown.words()
random_words = random.sample(words, 10000)