应用错误收集

我在自然语言处理项目中工作。它旨在为阿拉伯语建立图书馆。我们正在开发一个POS标签器，现在我正在考虑语法阶段。由于阿拉伯语和许多其他语言都有复杂的语法，因此很难建立他们的上下文无关语法（CFG）。出于这个原因，我想到了一种算法，可以使用无监督学习为来自标记器语料库的任何语言构建CFG（具有概率PCFG）。为了解释算法，假设我将这三个标记语句作为输入： 1-动词名词 2-动词名词主题 3-动词名词主语副词该算法给出： 1）A - ＆gt;动词名词 2）B - >主题 3）C - > B副词我们为每个陈述重复这种方法，以便我们可以完成特定的PCFG。算法的主要功能超出了查看整个语句的事实，因此概率可以是有条件的，并且它们是特定的。之后，可以应用CKY算法来使用概率为新语句选择最佳树。你是否期望这个算法好或不好，值得继续改进它。

自然语言CFG构建器算法

1 个答案: