Perl 6字符匹配的所有Unicode属性是什么?

时间:2018-03-12 22:42:03

标签: unicode perl6

.uniprop返回单个属性:

put join ', ', 'A'.uniprop;

我找回一个属性(一般类别):

Lu

环顾四周,我没有找到获取所有其他属性的方法(包括ID_Start等派生属性)。我错过了什么?我知道我可以查看数据文件,但我宁愿使用一个返回列表的方法。

我最感兴趣的是因为正则表达式了解属性并匹配正确的属性。我想拍摄任何角色,并展示它将匹配哪些属性。

2 个答案:

答案 0 :(得分:2)

"A".uniprop("Alphabetic")将获得Alphabetic属性。您是否在询问其他可能属性?

所有这些都带有复选标记的人都可能会有效。这只是显示其https://github.com/perl6/roast/issues/195

的烤测试状态

这可能对您更有用,https://github.com/rakudo/rakudo/blob/master/src/core/Cool.pm6#L396-L483 第一个哈希只是将属性名称的别名映射到全名。第二个哈希指定属性是布尔值为B,字符串为S,整数为I,数值为nv,Unicode名称为na,还有一些其他特殊值。

如果我不明白你的问题,请告诉我,我会修改这个答案。

更新:似乎您想找出所有匹配的属性。您要做的是迭代所有https://github.com/rakudo/rakudo/blob/master/src/core/Cool.pm6#L396-L483并仅查看字符串,整数和布尔属性。这是完整的事情:https://gist.github.com/samcv/ae09060a781bb4c36ae6cac80ea9325f

sub MAIN {
    use Test;
    my $char = 'a';
    my @result = what-matches($char);
    for @result {
        ok EVAL("'$char' ~~ /$_/"), "$char ~~ /$_/";
    }
}
use nqp;
sub what-matches (Str:D $chr) {
    my @result;
    my %prefs = prefs();
    for %prefs.keys -> $key {
        given %prefs{$key} {
            when 'S' {
                my $propval = $chr.uniprop($key);
                if $key eq 'Block' {
                    @result.push: "<:In" ~ $propval.trans(' ' => '') ~ ">";
                }
                elsif $propval {
                    @result.push: "<:" ~ $key ~ "<" ~ $chr.uniprop($key) ~ ">>";
                }
            }
            when 'I' {
                @result.push: "<:" ~ $key ~ "<" ~ $chr.uniprop($key) ~ ">>";
            }
            when 'B' {
                @result.push: ($chr.uniprop($key) ?? "<:$key>" !! "<:!$key>");
            }

        }
    }
    @result;

}
sub prefs {
    my %prefs = nqp::hash(
          'Other_Grapheme_Extend','B','Titlecase_Mapping','tc','Dash','B',
          'Emoji_Modifier_Base','B','Emoji_Modifier','B','Pattern_Syntax','B',
          'IDS_Trinary_Operator','B','ID_Continue','B','Diacritic','B','Cased','B',
          'Hangul_Syllable_Type','S','Quotation_Mark','B','Radical','B',
          'NFD_Quick_Check','S','Joining_Type','S','Case_Folding','S','Script','S',
          'Soft_Dotted','B','Changes_When_Casemapped','B','Simple_Case_Folding','S',
          'ISO_Comment','S','Lowercase','B','Join_Control','B','Bidi_Class','S',
          'Joining_Group','S','Decomposition_Mapping','S','Lowercase_Mapping','lc',
          'NFKC_Casefold','S','Simple_Lowercase_Mapping','S',
          'Indic_Syllabic_Category','S','Expands_On_NFC','B','Expands_On_NFD','B',
          'Uppercase','B','White_Space','B','Sentence_Terminal','B',
          'NFKD_Quick_Check','S','Changes_When_Titlecased','B','Math','B',
          'Uppercase_Mapping','uc','NFKC_Quick_Check','S','Sentence_Break','S',
          'Simple_Titlecase_Mapping','S','Alphabetic','B','Composition_Exclusion','B',
          'Noncharacter_Code_Point','B','Other_Alphabetic','B','XID_Continue','B',
          'Age','S','Other_ID_Start','B','Unified_Ideograph','B','FC_NFKC_Closure','S',
          'Case_Ignorable','B','Hyphen','B','Numeric_Value','nv',
          'Changes_When_NFKC_Casefolded','B','Expands_On_NFKD','B',
          'Indic_Positional_Category','S','Decomposition_Type','S','Bidi_Mirrored','B',
          'Changes_When_Uppercased','B','ID_Start','B','Grapheme_Extend','B',
          'XID_Start','B','Expands_On_NFKC','B','Other_Uppercase','B','Other_Math','B',
          'Grapheme_Link','B','Bidi_Control','B','Default_Ignorable_Code_Point','B',
          'Changes_When_Casefolded','B','Word_Break','S','NFC_Quick_Check','S',
          'Other_Default_Ignorable_Code_Point','B','Logical_Order_Exception','B',
          'Prepended_Concatenation_Mark','B','Other_Lowercase','B',
          'Other_ID_Continue','B','Variation_Selector','B','Extender','B',
          'Full_Composition_Exclusion','B','IDS_Binary_Operator','B','Numeric_Type','S',
          'kCompatibilityVariant','S','Simple_Uppercase_Mapping','S',
          'Terminal_Punctuation','B','Line_Break','S','East_Asian_Width','S',
          'ASCII_Hex_Digit','B','Pattern_White_Space','B','Hex_Digit','B',
          'Bidi_Paired_Bracket_Type','S','General_Category','S',
          'Grapheme_Cluster_Break','S','Grapheme_Base','B','Name','na','Ideographic','B',
          'Block','S','Emoji_Presentation','B','Emoji','B','Deprecated','B',
          'Changes_When_Lowercased','B','Bidi_Mirroring_Glyph','bmg',
          'Canonical_Combining_Class','S',
    );
}

答案 1 :(得分:1)

好的,所以这是回答这个问题的另一种看法,但解决方案并不完美。带来downvotes!

如果您加入#perl6 channel on freenode,则会有一个名为unicodable6的机器人,它具有您可能觉得有用的功能。您可以要求它执行此操作(例如,同时为角色Aπ):

  

&LT; AlexDaniel&GT;支持:Aπ
  &LT; unicodable6&GT; AlexDaniel,https://gist.github.com/b48e6062f3b0d5721a5988f067259727

它不仅显示每个属性的值,而且如果你给它多个字符,它也会突出显示差异!

是的,好像你正在寻找一种在perl 6中做到这一点的方法,而这个答案不是它。但与此同时它非常有用。内部Unicodable只是遍历this list属性。 所以基本上这与这个帖子中的其他答案完全相同。

我认为有人可以制作一个模块(提示 - 提示),然后你的问题的答案将是“只使用模块Unicode :: Propdump”。