应用错误收集

TreeTagger如何得到一个单词的引理？

时间：2018-06-05 11:04:38

标签： nlp lemmatization treetagger

我正在使用TreeTagger来获取西班牙语单词的引理，但我观察到有太多单词没有被转换为应该是。我想知道这个操作是如何工作的，如果它是用决策树或机器学习算法等技术完成的，或者它只包含一个带有相应引理的单词列表。有人知道吗？谢谢！

1 个答案:

答案 0 :(得分：0)

根据通过电子邮件与TreeTagger的作者H. Schmid进行的个人通信，您的问题的答案是：

词形还原功能基于XTAG Project，其中包括形态分析器。在XTAG项目中，已经分析了几个语料库。 Considerung TreeTagger，特别是Penn Treebank语料库的分析似乎是相关的，因为这个语料库是TreeTagger的英文参数文件的训练语料库。考虑到词形还原，lemmata只是存储在词典中。 TreeTagger最终将此词典用作查找表。

因此，使用TreeTagger，您只能检索词典中可用的词组。

如果除了TreeeTagger中的选项之外你还需要关于词形还原的额外功能，你将需要一个形态分析器，并且根据你的方法，需要一个合适的训练语料库，虽然这似乎并不强制，因为几个分析仪表现得相当好直接应用于感兴趣的语料库。