带有Penn Treebank标签的NLP POS注释工具

时间:2011-06-17 23:32:13

标签: text annotations nlp

我有一个语料库,我想要注释词性(动词,名词,形容词等)我正在寻找一个很好的工具,我可以用来做那个但是我要求我希望它使用与Penn Treebank相同的标签来标记语料库。原因是我想使用斯坦福NLP进行pos识别。

感谢任何帮助,

MJ

2 个答案:

答案 0 :(得分:2)

您可能希望查看bratwebanno。这些都是基于span的注释器而不是基于令牌的注释器,但您应该能够双击单词,然后如果配置正确,则从列表中选择标签。

brat有一个dependency and tagging example configuration可能是一个很好的起点,尽管你可能想借用Stanford CoreNLP配置的visual.conf中的部分,其中包括Penn Treebank标签的一些着色。我对webanno的配置不太熟悉,但由于它基于brat,可以用相同的方式定制它。

答案 1 :(得分:1)

你有很多选择;这是我最简单/最复杂到最复杂的想法:

1)CPAN上的任何模块,尤其是Lingua::EN::Tagger。 不确定它有多精确,但它实现起来非常容易,但你必须喜欢Perl。

2)几乎同样简单的NLTK(python自然语言工具包)。安装整个软件包需要一段时间,但编写代码很容易。 NLTK拥有相当强大的文档和示例;这是pos标记: http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html

3)我个人倾向于使用stanford解析器,并且内置了一个很好的pos标记器。我在我的网页上有一个与stanford系统进行编程交互的例子(在页面中搜索'使用内置标记化的简单版本) “): https://sites.google.com/site/nicoflacco/ 您必须稍微自定义代码才能进行标记化/标记而不进行解析,但这并不太难。

4)Lingpipe的职责有点重。我相信它们包含了stanford解析器,但我可能错了。

如果您想使用stanford解析器而不仅仅是pos标记符,那么您所说的(3)可能并不坏。