形态分析器WordFrame基于实例的培训

时间:2013-02-01 02:40:45

标签: java trie

我正在开发一个关于塔加拉族语形态分析器的项目。它使用修订后的Tagalog WordFrame模型,使用Trie数据结构存储规则和基于示例的训练集,形式为“根词,变换词”。使用Java作为编程语言我在下面的链接中使用本文作为参考:

http://www.google.com.ph/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CDAQFjAA&url=http%3A%2F%2Fwww.dlsu.edu.ph%2Fresearch%2Fcenters%2Fadric%2Fnlp%2FDLSUS%26T-Wordframe.pdf&ei=AyULUfblK8aziQejtoGwDQ&usg=AFQjCNFkzzaLubyrgyOYlOBvvLw3r7isYw&sig2=czsPv7Av1sTbO9DxXmBRYQ&bvm=bv.41867550,d.aGc&cad=rja

我在实施最后一步时遇到了麻烦。

以下是我到目前为止所做的事情:

  1. 能够从训练集中分割表格中的单词
  2. 拥有可以存储规则的Trie数据结构
  3. 目前还不清楚:

    1. 我理解我需要一些条件概率来确定如何从根词生成正确的变换词。但是,我对如何应用所学规则感到有点困惑。我从哪里获得训练集的概率?
    2. 我真的需要一个语料库来获取概率吗?或者训练设置不够?
    3. 在这种情况下,“最高对齐概率”如何适用?
    4. 当存储学习规则时,如内部元音更改中的“o-> u”,我是否只将“ou”存储在我的Trie中?或者它应该包括来自哪里的根词。
    5. 提前谢谢你。

0 个答案:

没有答案