有没有一种方法可以确定句子数据集中的部分语音模式?

时间:2019-09-27 14:39:44

标签: nlp spacy

我有一个带有句子的熊猫数据框,我想确定每个句子中的部分语音模式。有什么好方法吗?

2 个答案:

答案 0 :(得分:0)

用于Python的两种最受欢迎​​的POS标记器是NLTK和spaCy。 spaCy更快,更易于使用,并且您需要做更多的工作时,spaCy还提供了一个不错的API与Wordnet,Word Vectors和其他更高级的工具进行交互。

这是使用spaCy进行POS阅读的方法:

import spacy

nlp = spacy.load('en_core_web_sm')
doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

答案 1 :(得分:0)

我有一个简单的方法可以为您提供帮助。 列出从句子中生成的n元语法的列表。出现次数最多的那些可以被识别为模式。