Question

我有一个带有句子的熊猫数据框，我想确定每个句子中的部分语音模式。有什么好方法吗？

Answer 1

用于Python的两种最受欢迎的POS标记器是NLTK和spaCy。 spaCy更快，更易于使用，并且您需要做更多的工作时，spaCy还提供了一个不错的API与Wordnet，Word Vectors和其他更高级的工具进行交互。

这是使用spaCy进行POS阅读的方法：

import spacy

nlp = spacy.load('en_core_web_sm')
doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

Answer 2

我有一个简单的方法可以为您提供帮助。列出从句子中生成的n元语法的列表。出现次数最多的那些可以被识别为模式。

有没有一种方法可以确定句子数据集中的部分语音模式？

2 个答案: