使用带有ANTLR的POS标记字符串

时间:2015-12-15 19:00:57

标签: java parsing stanford-nlp antlr4

我有一个字符串,我使用Stanford CoreNLP POS Tagger进行标记。现在,我希望字符串中的单词像值(终端)和每个单词的相应标记一样充当令牌(非终端)。

例如,如果标记的字符串是:

Three/CD, critics/NNS, review/VBP, a/DT, book/NN, ./.

然后,我希望这些标签(CD,NNS,VBP等)作为令牌流传递给ANTLR 4解析器,句子中的单词(三,评论家,评论等)是这些标记的值这可以在以后推断。

我想询问是否有一种有效的方法可以使用ANTLR解析句子,但是使用我自己的方法来提供令牌?

PS:我正在使用Eclipse的ANTLR 4 IDE插件。暂无标签!

1 个答案:

答案 0 :(得分:0)

扩展CommonToken以使用适合标记的方法和字段创建自己的自定义标记。扩展CommonTokenFactory以在调用时将标记提供给词法分析器;使用Lexer.setTokenFactory()使工厂可用。