我正在为斯特拉斯堡的CDS开发自然语言搜索引擎。 (斯特拉斯堡天文数据中心)
我想知道斯坦福词性标注器是如何标记首字母缩略词的,因为首字母缩略词有时被标记为NNP,有时被标记为NN。
我无法确切地找到该程序如何决定是否像" CDS"这样的首字母缩略词。或者" NASA"是NNP或NN。
如果有人可以帮我解决这个问题,我会非常高兴。 :)
祝你有个美好的一天。
答案 0 :(得分:0)
POS标记器是一种统计模型,受到华尔街日报数千条句子的训练。它可以受到诸如字符中出现的字符序列以及句子中单词周围的单词等因素的影响。
此处提供了更多详细信息:https://nlp.stanford.edu/software/tagger.shtml