Question

您是否有一种在非常大的文件中标记词性的有效方法？

 import pandas as pd
 import collections 
 import nltk 

 tokens=nltk.word_tokenize(pandas_dataframe)
 tag1=nltk.pos_tag(tokens)
 counts=collections.counter([y for x,y  in tag1])

我正在尝试在文件中找到最常见的语音部分，并且不知道更好的方法来执行此操作

Answer 1

通常，您需要绕过for循环，可能的高内存负载和可能的高CPU负载。

以下是distributed part of speech tagging使用python和execnet的示例。

在nltk中进行POS标记

1 个答案: