我有一个带有句子的熊猫数据框,我想确定每个句子中的部分语音模式。有什么好方法吗?
答案 0 :(得分:0)
用于Python的两种最受欢迎的POS标记器是NLTK和spaCy。 spaCy更快,更易于使用,并且您需要做更多的工作时,spaCy还提供了一个不错的API与Wordnet,Word Vectors和其他更高级的工具进行交互。
这是使用spaCy进行POS阅读的方法:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')
for token in doc:
print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
token.shape_, token.is_alpha, token.is_stop)
答案 1 :(得分:0)
我有一个简单的方法可以为您提供帮助。 列出从句子中生成的n元语法的列表。出现次数最多的那些可以被识别为模式。