因此,我试图将描述职业的名词短语的“缩写”列表转换为这些名词短语的“完整”列表。它应该看起来像这样:
示例(输入->输出):
我尝试了一种基于规则的沉重方法,但这并不是我喜欢的。 我还使用spaCy尝试了简单的分块,但是初始结果也不是完美的。
spaCy代码如下:
import spacy
nlp = spacy.load("en_core_web_sm")
def get_chunks(sentence):
res = []
doc = nlp(u'{}'.format(sentence))
for np in doc.noun_chunks:
res.append(np.text)
return res
对于上述确切的输入,代码返回:
我正在考虑从这里开始采用基于规则的方法,但是也许有人有更好的建议?
谢谢和欢呼!