对于像“&x; x”这样的句子代表苹果'或者&x; y代表苹果和香蕉'我希望POS标记器适当地标记单词,就像句子“Java代表咖啡豆”一样。或者是否有其他更好的解析器可以为这些非结构化句子提供POS标记。
我还需要找到我正在尝试使用斯坦福解析器的句子中的依赖项,如果有人知道更好的方法请建议。 我在python中尝试所有这些东西。
答案 0 :(得分:0)
我使用SpaCy。 https://spacy.io/
它被设计为开箱即用的NLP管道,因此您不需要更改模型的任何内容。它给出了给定句子的“通用”和“Penn treebank”POS标签。
它也会进行依赖标记。
答案 1 :(得分:-1)
你可以试试这个
>>> import nltk
>>> import re
>>> from nltk.tokenize import word_tokenize
>>> from nltk.tag import pos_tag
>>> sentence = 'x and y represents apples and bananas'
>>> sentence1 = nltk.word_tokenize(sentence)
>>> sentence1 = nltk.pos_tag(sentence1)
>>> grammar = "NP: {<DT>?<JJ>*<NN>}"
>>> cp = nltk.RegexpParser(grammar)
>>> result = cp.parse(sentence1)
>>> print(result)
(S
(NP x/NN)
and/CC
y/JJ
represents/VBZ
apples/NNS
and/CC
bananas/NNS)
>>> result.draw()
或者
的更多详细信息