从树库标签转换为Java中与wordnet兼容的标签?

时间:2011-04-18 19:30:11

标签: java nlp

我有来自OpenNLP的POS标记输入...我需要将这些用于WordNet ...但是wordnet只使用4个标签 - 名词,动词,形容词,副词......其中OpenNLP根据{{3}生成标签}。我需要将它们转换为与wordnet兼容的标签...我确实在网站上找到 Penn treebank tagset - 但它的所有python..i都需要java

同意我自己可以编写一个简单的函数来重命名这些标签..但是如何处理其他标签,如DT,PP,PDT,POS,MD等......

1 个答案:

答案 0 :(得分:1)

有关您想要使用WordNet关联做什么的更多信息可能会有所帮助,但我的第一个猜测是您想要丢弃不能完全映射到WordNet类别的词性。

例如,考虑DT(确定者)。您是否希望在WordNet中获得“the”和“an”之间的关系?同样,WordNet中可能存在PP(介词)的有用关系,但我怀疑你更有可能在不同的名词或动词之间找到有用的关系,而不是在封闭的单词之间。

我的建议是首先将每个TreeBank词性标记映射到一个WordNet类,或者对那些没有明显映射的那些词性标记'null'(你可能在某个地方找到这样的映射,但只有36个标签,这可能就像你自己一样容易。)

对于封闭类词,您可能决定使用其他关系元数据源,但这可能取决于应用程序的最终目标。