($ pre =〜/\ ./&& $ pre =〜/ \ p {IsAlpha} /)在Moses Tokenizer中意味着什么?

时间:2017-02-09 01:55:05

标签: regex perl nlp moses

Moses Tokenizer是广泛用于机器翻译和自然语言处理实验的标记器。

有一行正则表达式可以检查:

if (($pre =~ /\./ && $pre =~ /\p{IsAlpha}/) || 
   ($NONBREAKING_PREFIX{$pre} && $NONBREAKING_PREFIX{$pre}==1) || 
   ($i<scalar(@words)-1 && ($words[$i+1] =~ /^[\p{IsLower}]/)))

如果我错了,请纠正我,第二和第三个条件是检查

  • 前缀是否在不间断前缀列表中
  • 该单词是否不是最后一个标记,还有一个小写标记作为下一个单词。

问题在于它检查的第一个条件:

($pre =~ /\./ && $pre =~ /\p{IsAlpha}/)
  1. $pre =~ /\./是否检查前缀是否为单个完整停止?

  2. $pre =~ /\p{IsAlpha}/检查前缀是否是perluniprop中字母列表中的字母?

  3. 一个相关的问题是终点是否已经在perluniprop字母表中?如果是这样,这种情况永远不会成真吗?

1 个答案:

答案 0 :(得分:3)

  

如果我[错误$NONBREAKING_PREFIX{$pre} && $NONBREAKING_PREFIX{$pre}==1检查]前缀是否在不间断前缀列表中

,请更正我

在不知道%NONBREAKING_PREFIX包含的内容的情况下无法判断,但这是一个公平的猜测。

  

如果我错了[约$i<scalar(@words)-1 && ($words[$i+1] =~ /^[\p{IsLower}]/)检查]这个词是不是最后一个令牌而且还有一个小写的令牌作为下一个词

假设代码在@words上进行迭代,并且$i是当前单词的索引,则它检查当前单词后面是否以小写字母开头的单词(如定义的那样)通过Unicode)。

  

$pre =~ /\./是否检查前缀是否为单个完整停止?

不完全。它检查$pre中字符串中的任何是否为完全停止。

$ perl -e'CORE::say "abc.def" =~ /\./ ? "match" : "no match"'
match

$ perl -e'CORE::say "abc!def" =~ /\./ ? "match" : "no match"'
no match

Perl首先尝试在位置0,然后在位置1等处找到匹配,直到找到匹配为止。

  

是$ pre =〜/ \ p {IsAlpha} /检查前缀是否是perluniprop中字母列表中的alpha?

\p{IsAlpha}确实在perluniprops中定义。 [注意拼写正确。]定义

\p{Is_*}          ⇒   \p{*}
\p{Alpha}         ⇒   \p{XPosixAlpha}
\p{XPosixAlpha}   ⇒   \p{Alphabetic=Y}

\p{Alpha: *}      ⇒   \p{Alphabetic=*}
\p{Alphabetic}    ⇒   \p{Alphabetic=Y}

因此\p{IsAlpha}\p{Alphabetic=Y} [1] 的别名。 Unicode定义哪些字符是字母 [2] 。有很多:

$ unichars '\p{Alpha}' | wc -l
10391

回到这个问题。 $pre =~ /\p{IsAlpha}/检查$pre中字符串中的任何字符是否为字母字符。

  

一个相关的问题是,这个完整停止是否已经在perluniprop字母表中?

没有

$ perl -e'CORE::say "." =~ /\p{IsAlpha}/ ? "match" : "no match"'
no match

$ uniprops .
U+002E <.> \N{FULL STOP}
    \pP \p{Po}
    All Any ASCII Assigned Basic_Latin Punct Is_Punctuation Case_Ignorable CI Common Zyyy Po P
       Gr_Base Grapheme_Base Graph X_POSIX_Graph GrBase Other_Punctuation Pat_Syn Pattern_Syntax
       PatSyn POSIX_Graph POSIX_Print POSIX_Punct Print X_POSIX_Print Punctuation STerm Term
       Terminal_Punctuation Unicode X_POSIX_Punct

相比之下,

$ uniprops a
U+0061 <a> \N{LATIN SMALL LETTER A}
    \w \pL \p{LC} \p{L_} \p{L&} \p{Ll}
    AHex POSIX_XDigit All Alnum X_POSIX_Alnum Alpha X_POSIX_Alpha Alphabetic Any ASCII
       ASCII_Hex_Digit Assigned Basic_Latin ID_Continue Is_IDC Cased Cased_Letter LC
       Changes_When_Casemapped CWCM Changes_When_Titlecased CWT Changes_When_Uppercased CWU Ll L
       Gr_Base Grapheme_Base Graph X_POSIX_Graph GrBase Hex X_POSIX_XDigit Hex_Digit IDC ID_Start
       IDS Letter L_ Latin Latn Lowercase_Letter Lower X_POSIX_Lower Lowercase PerlWord POSIX_Word
       POSIX_Alnum POSIX_Alpha POSIX_Graph POSIX_Lower POSIX_Print Print X_POSIX_Print Unicode Word
       X_POSIX_Word XDigit XID_Continue XIDC XID_Start XIDS
  

如果是这样,这种情况永远不会成真吗?

$ perl -E'CORE::say /\./ && /\p{IsAlpha}/ ? "match" : "no match" for $ARGV[0]' a
no match

$ perl -E'CORE::say /\./ && /\p{IsAlpha}/ ? "match" : "no match" for $ARGV[0]' .
no match

$ perl -E'CORE::say /\./ && /\p{IsAlpha}/ ? "match" : "no match" for $ARGV[0]' a.
match
  1. 忽略下划线和空格,因此\p{IsAlpha}\p{Is_Alpha}\p{I s_A l p_h_a}都是等效的。

  2. 字母字符列表与字母字符列表略有不同。

    $ unichars '\p{Letter}' | wc -l
    9540
    
    $ unichars '\p{Alpha}' | wc -l
    10391
    

    所有字母都是字母,但也有一些字母标记,罗马数字等。