应用错误收集

带有Penn Treebank标签的NLP POS注释工具

时间：2011-06-17 23:32:13

标签： text annotations nlp

我有一个语料库，我想要注释词性（动词，名词，形容词等）我正在寻找一个很好的工具，我可以用来做那个但是我要求我希望它使用与Penn Treebank相同的标签来标记语料库。原因是我想使用斯坦福NLP进行pos识别。

感谢任何帮助，

2 个答案:

答案 0 :(得分：2)

您可能希望查看brat或webanno。这些都是基于span的注释器而不是基于令牌的注释器，但您应该能够双击单词，然后如果配置正确，则从列表中选择标签。

brat有一个dependency and tagging example configuration可能是一个很好的起点，尽管你可能想借用Stanford CoreNLP配置的visual.conf中的部分，其中包括Penn Treebank标签的一些着色。我对webanno的配置不太熟悉，但由于它基于brat，可以用相同的方式定制它。

答案 1 :(得分：1)

你有很多选择;这是我最简单/最复杂到最复杂的想法：

1）CPAN上的任何模块，尤其是Lingua::EN::Tagger。不确定它有多精确，但它实现起来非常容易，但你必须喜欢Perl。

2）几乎同样简单的NLTK（python自然语言工具包）。安装整个软件包需要一段时间，但编写代码很容易。 NLTK拥有相当强大的文档和示例;这是pos标记： http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html

3）我个人倾向于使用stanford解析器，并且内置了一个很好的pos标记器。我在我的网页上有一个与stanford系统进行编程交互的例子（在页面中搜索'使用内置标记化的简单版本） “）： https://sites.google.com/site/nicoflacco/ 您必须稍微自定义代码才能进行标记化/标记而不进行解析，但这并不太难。

4）Lingpipe的职责有点重。我相信它们包含了stanford解析器，但我可能错了。

如果您想使用stanford解析器而不仅仅是pos标记符，那么您所说的（3）可能并不坏。