如何构建新的标记集

时间:2013-08-14 23:48:39

标签: python-2.7 nlp nltk

我有一种以前没有被POS注释的语言语料库,也就是说,它没有现有的标签集。 除了用像记事本这样的文字处理器手动标记它之外,是否有任何自动方法可以开始标记像我的语料库这样的新的无标记集合? 感谢。

2 个答案:

答案 0 :(得分:0)

这取决于标签集的详细程度。 10-12基本POS(名词,形容词,...,外国,标点符号)或更详细(区别动词形式,代词类型,性别,数字,时态......)。

前者非常普遍(请参阅the categories of the Multext-East tagset或Google的通用标记集)。

后者要复杂得多,我们有一个paper。简而言之,我们有一个标签集模板,然后我们修改它(删除/添加类别和值)以适应特定的语言。

关于注释:再次,它取决于 - 如果你有一个小标签集,你可以手动为每个单词分配一个标签,比如在记事本或一些简单的GUI(我们使用this one,但是可能有更好的标签)。如果你有一个包含数百或数千个标签的标签集,那么你可能想要一些更好的支持。最好的方法是使用(可能过度生成)形态分析仪和GUI,允许从分析仪建议的选项中进行选择。

答案 1 :(得分:0)

Brat有一个非常好用于手动注释的GUI。