Question

对于像“＆x; x”这样的句子代表苹果＆＃39;或者＆x; y代表苹果和香蕉＆＃39;我希望POS标记器适当地标记单词，就像句子“Java代表咖啡豆”一样。或者是否有其他更好的解析器可以为这些非结构化句子提供POS标记。

我还需要找到我正在尝试使用斯坦福解析器的句子中的依赖项，如果有人知道更好的方法请建议。我在python中尝试所有这些东西。

Answer 1

它被设计为开箱即用的NLP管道，因此您不需要更改模型的任何内容。它给出了给定句子的“通用”和“Penn treebank”POS标签。

它也会进行依赖标记。

Answer 2

你可以试试这个

>>> import nltk
>>> import re
>>> from nltk.tokenize import word_tokenize
>>> from nltk.tag import pos_tag
>>> sentence = 'x and y represents apples and bananas'
>>> sentence1 = nltk.word_tokenize(sentence)
>>> sentence1 = nltk.pos_tag(sentence1)
>>> grammar = "NP: {<DT>?<JJ>*<NN>}"
>>> cp = nltk.RegexpParser(grammar)
>>> result = cp.parse(sentence1)
>>> print(result)
(S
  (NP x/NN)
  and/CC
  y/JJ
  represents/VBZ
  apples/NNS
  and/CC
  bananas/NNS)
>>> result.draw()

或者

您可以查看a sentence POS and dependency tree.

的更多详细信息

为非结构化句子训练斯坦福POS标记器

2 个答案: