我正在尝试标记一个充满空格分隔数字的HTML页面,例如" 5320412185 5320412184 5320412189 ..."观察标记器如何用数字表示。我在构造函数中使用english-left3words-distsim.tagger
。我在控制台上观察到大多数数字被标记为CD
,但有时也有数字被标记为NN
。我搜索了nlp.stanford.edu的FAQ页面,但我在那里找不到它。任何人都可以帮我理解这个吗?
我不知道是否需要提及:我通过基于空格分隔符分割巨大的输入(1045000数字!)来将每个数字分别输入到标记器。
答案 0 :(得分:1)
Penn Treebank项目的词性标注指南(第3次修订)
有时候,不清楚一个是基数还是名词。通常,它应标记为a 基数(CD),即使它的意义不明显是数字。
EXAMPLE: one/CD of the best reasons
但如果它可以在特定的语境中被形容词复数或修改,那么它就是一个普通名词(NN)。
EXAMPLE: the only (good) one/NN of its kind
(cf. the only (good) ones/NNS of their kind)
在另一个搭配中,一个也应该被标记为普通名词(NN)。
联名分数有一半,四分之三,七分之八,一,二,七,八分之八应该是 当它们是prenominal modifiers时被标记为形容词(JJ),但如果它们可能是adbalbs(RB) 取而代之的是双倍或两倍。
进一步阅读:http://repository.upenn.edu/cgi/viewcontent.cgi?article=1603&context=cis_reports