我在自然语言处理项目中工作。它旨在为阿拉伯语建立图书馆。我们正在开发一个POS标签器,现在我正在考虑语法阶段。由于阿拉伯语和许多其他语言都有复杂的语法,因此很难建立他们的上下文无关语法(CFG)。出于这个原因,我想到了一种算法,可以使用无监督学习为来自标记器语料库的任何语言构建CFG(具有概率PCFG)。为了解释算法,假设我将这三个标记语句作为输入: 1-动词名词 2-动词名词主题 3-动词名词主语副词 该算法给出: 1)A - >动词名词 2)B - >主题 3)C - > B副词 我们为每个陈述重复这种方法,以便我们可以完成特定的PCFG。算法的主要功能超出了查看整个语句的事实,因此概率可以是有条件的,并且它们是特定的。之后,可以应用CKY算法来使用概率为新语句选择最佳树。 你是否期望这个算法好或不好,值得继续改进它。
答案 0 :(得分:1)
我为我的硕士学位做了类似的事情。论文 - 学习CFG规则(没有概率) 使用部分语法和POS标记。 请参阅我对this question的回答,以获取有关学习PCFG的参考列表。 一种方法是学习词汇化语法,包括单词信息和节点名称。
没有上下文很难回答你的问题:你认为什么算法好? 一个提供足够好的语言模型的人?这最小化统计指标?这够有效吗?
考虑到阿拉伯语丰富的形态,也许你可以为你的语法添加形态 - 例如添加性别和号码协议功能。