Snowball Stemming:定义Null Region

时间:2016-09-06 18:54:50

标签: nlp stemming linguistics porter-stemmer snowball

我正在努力了解雪球干扰算法。 HW90与示例有类似的问题,但不是我的。算法使用两个区域R1和R2,其定义如下:

  

R1是元音后第一个非元音之后的区域,或者是   如果没有这样的非元音,则在单词末尾的空区域。

     

R2是R1中元音后第一个非元音之后的区域,或   如果没有这样的话,则是单词末尾的空区域   非元音。

     

http://snowball.tartarus.org/texts/r1r2.html

我不明白,“单词末尾的空区域”是什么。请问有人给我一些例子吗?

1 个答案:

答案 0 :(得分:2)

空区域表示空区域,没有字母。您错过了documentation page中的示例:

  

下面,R1和R2显示了许多英文单词

b   e   a   u   t   i   f   u   l
                  |<------------->|    R1
                          |<----->|    R2
     

字母t是继元音之后的第一个非元音,所以R1   是iful。在iful中,字母f是跟随a的第一个非元音   元音,所以R2是ul。

b   e   a   u   t   y
                  |<->|    R1
                    ->|<-  R2 
     

在美女中,最后一个字母y被归类为元音。同样,字母t是第一个非元音   元音,所以R1只是最后一个字母,y。 R1不包含非元音,所以   R2是单词末尾的空区域。

b   e   a   u
            ->|<-  R1
            ->|<-  R2