在nltk中进行POS标记

时间:2014-09-07 19:44:44

标签: python text nltk

您是否有一种在非常大的文件中标记词性的有效方法?

 import pandas as pd
 import collections 
 import nltk 

 tokens=nltk.word_tokenize(pandas_dataframe)
 tag1=nltk.pos_tag(tokens)
 counts=collections.counter([y for x,y  in tag1])

我正在尝试在文件中找到最常见的语音部分,并且不知道更好的方法来执行此操作

1 个答案:

答案 0 :(得分:1)

通常,您需要绕过for循环,可能的高内存负载和可能的高CPU负载。

以下是distributed part of speech tagging使用python和execnet的示例。