您是否有一种在非常大的文件中标记词性的有效方法?
import pandas as pd
import collections
import nltk
tokens=nltk.word_tokenize(pandas_dataframe)
tag1=nltk.pos_tag(tokens)
counts=collections.counter([y for x,y in tag1])
我正在尝试在文件中找到最常见的语音部分,并且不知道更好的方法来执行此操作
答案 0 :(得分:1)
通常,您需要绕过for循环,可能的高内存负载和可能的高CPU负载。
以下是distributed part of speech tagging使用python和execnet的示例。