我正在使用TreeTagger来获取西班牙语单词的引理,但我观察到有太多单词没有被转换为应该是。我想知道这个操作是如何工作的,如果它是用决策树或机器学习算法等技术完成的,或者它只包含一个带有相应引理的单词列表。有人知道吗? 谢谢!
答案 0 :(得分:0)
根据通过电子邮件与TreeTagger的作者H. Schmid进行的个人通信,您的问题的答案是:
词形还原功能基于XTAG Project,其中包括形态分析器。在XTAG项目中,已经分析了几个语料库。 Considerung TreeTagger,特别是Penn Treebank语料库的分析似乎是相关的,因为这个语料库是TreeTagger的英文参数文件的训练语料库。考虑到词形还原,lemmata只是存储在词典中。 TreeTagger最终将此词典用作查找表。
因此,使用TreeTagger,您只能检索词典中可用的词组。
如果除了TreeeTagger中的选项之外你还需要关于词形还原的额外功能,你将需要一个形态分析器,并且根据你的方法,需要一个合适的训练语料库,虽然这似乎并不强制,因为几个分析仪表现得相当好直接应用于感兴趣的语料库。