为非结构化句子训练斯坦福POS标记器

时间:2018-02-06 11:35:23

标签: python stanford-nlp pos-tagger

对于像“&x; x”这样的句子代表苹果'或者&x; y代表苹果和香蕉'我希望POS标记器适当地标记单词,就像句子“Java代表咖啡豆”一样。或者是否有其他更好的解析器可以为这些非结构化句子提供POS标记。

我还需要找到我正在尝试使用斯坦福解析器的句子中的依赖项,如果有人知道更好的方法请建议。 我在python中尝试所有这些东西。

2 个答案:

答案 0 :(得分:0)

我使用SpaCy。 https://spacy.io/

它被设计为开箱即用的NLP管道,因此您不需要更改模型的任何内容。它给出了给定句子的“通用”和“Penn treebank”POS标签。

它也会进行依赖标记。

答案 1 :(得分:-1)

你可以试试这个

>>> import nltk
>>> import re
>>> from nltk.tokenize import word_tokenize
>>> from nltk.tag import pos_tag
>>> sentence = 'x and y represents apples and bananas'
>>> sentence1 = nltk.word_tokenize(sentence)
>>> sentence1 = nltk.pos_tag(sentence1)
>>> grammar = "NP: {<DT>?<JJ>*<NN>}"
>>> cp = nltk.RegexpParser(grammar)
>>> result = cp.parse(sentence1)
>>> print(result)
(S
  (NP x/NN)
  and/CC
  y/JJ
  represents/VBZ
  apples/NNS
  and/CC
  bananas/NNS)
>>> result.draw()

Dependency tree

或者

您可以查看a sentence POS and dependency tree.

的更多详细信息