Question

经典的Ruby实现允许迭代unicode字符：

('a'..'z').to_a 
# ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z"]
('@'..'[').to_a 
# ["@", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "["]

我需要获得一个包含所有unicode字符（不同的语言环境，标点符号等）的数组。我怎么做？我不知道第一个和最后一个角色。

Answer 1

[*32..65535].
  pack("U*").
  encode('UTF-8', invalid: :replace, undef: :replace, replace: '').
  split('')

IRB（主）：070：0＆GT; [* 32..65535] .pack（＆＃34; U *＆＃34;）。encode（＆＃39; UTF-8＆＃39;，无效:: replace，undef :: replace，replace：＆＃39 ;＆＃39）分割（＆＃39;＆＃39;）
  =＆GT; [＆＃34; ＆＃34;，＆＃34;！＆＃34;，＆＃34; \＆＃34;＆＃34;，＆＃34;＃＆＃34;，＆＃34; $＆＃34;，＆＃34;％＆＃34;，＆＃34;＆amp;＆＃34;，＆＃34;＆＃39;＆＃34;，＆＃34;（＆＃34;，＆＃34;）＆＃ 34;，＆＃34; *＆＃34;，＆＃34; +＆＃34;，＆＃34;，＆＃34;，＆＃34; - ＆＃34;，＆＃34;。＆＃ 34;，＆＃34; /＆＃34;，＆＃34; 0＆＃34;，＆＃34; 1＆＃34;，＆＃34; 2＆＃34;，＆＃34; 3＆＃34;，＆＃34; 4＆＃34;，＆＃34; 5＆＃34;，＆＃34; 6＆＃34;，＆＃34; 7＆＃34;，＆＃34; 8＆＃34;，＆＃34; 9＆＃ 34;，＆＃34;：＆＃34;，＆＃34 ;;＆＃34;，＆＃34;＆lt;＆＃34;，＆＃34; =＆＃34;，＆＃34;＆gt; ＆＃34;，＆＃34;？＆＃34;，＆＃34; @＆＃34;，＆＃34; A＆＃34;，＆＃34; B＆＃34;，＆＃34; C＆＃34 ;，＆＃34; D＆＃34;，＆＃34; E＆＃34;，＆＃34; F＆＃34;，＆＃34; G＆＃34;，＆＃34; H＆＃34;，＆＃34 ;我＆＃34;，＆＃34; J＆＃34;，＆＃34; K＆＃34;，＆＃34; L＆＃34;，＆＃34; M＆＃34;，＆＃34; N＆＃34; ，＆＃34; O＆＃34;，＆＃34; P＆＃34;，＆＃34; Q＆＃34;，＆＃34; R＆＃34;，＆＃34; S＆＃34;，＆＃34; T＆＃34;，＆＃34; U＆＃34;，＆＃34; V＆＃34;，＆＃34; W＆＃34;，＆＃34; X＆＃34;，＆＃34; Y＆＃34;，＆＃34; Z＆＃34;，＆＃34; [＆＃34;，＆＃34; \＆＃34;，＆＃34;]＆＃34;，＆＃34; ^＆＃34;，＆＃34; _＆＃34;，＆＃34;`＆＃34;，＆＃34; a＆＃34;，＆＃34; b＆＃34;，＆＃34; c＆＃34;，＆＃34; d＆＃34;，＆＃34; e＆＃34;，＆＃34; f＆＃34;，＆＃34; g＆＃34;，＆＃34; h＆＃34;，＆＃34; i＆＃34;，＆＃34; j＆＃34;，＆＃34; k＆＃34;，＆＃34; l＆＃34;，＆＃34; m＆＃34;，＆＃34; n＆＃34;，＆＃34; o＆＃34;，＆＃34; p＆＃34;，＆＃34; q＆＃34;，＆＃34; r＆＃34;，＆＃34; s＆＃34;，＆＃34; t＆＃34;，＆＃34; u＆＃34;，＆＃34; v＆＃34;，＆＃34; w＆＃34;，＆＃34; x＆＃34;，＆＃34; y＆＃34;，＆＃34; z＆＃34;，＆＃34; {＆＃34;，＆＃34; | ＆＃34;，＆＃34;}＆＃34;，＆＃34;〜＆＃34;，＆＃34; \ u007F＆＃34;，＆＃34; \ u0080＆＃34;，＆＃34; \ u0081＆＃34;，＆＃34; \ u0082＆＃34;，＆＃34; \ u0083＆＃34;，＆＃34; \ u0084＆＃34;，＆＃34; \ u0085＆＃34;，＆＃34; \ u0086＆＃34;，＆＃34; \ u0087＆＃34;，＆＃34; \ u0088＆＃34;，
  ...
  ＆＃34; \ uFFEA＆＃34;，＆＃34; \ uFFEB＆＃34;，＆＃34; \ uFFEC＆＃34;，＆＃34; \ uFFED＆＃34;，＆＃34; \ uFFEE＆＃34;，＆＃34; \ uFFEF＆＃34;，＆＃34; \ uFFF0＆＃34;，＆＃34; \ uFFF1＆＃34;，＆＃34; \ uFFF2＆＃34;，＆＃34; \ uFFF3＆＃34;，＆＃34; \ uFFF4＆＃34;，＆＃34; \ uFFF5＆＃34;，＆＃34; \ uFFF6＆＃34;，＆＃34; \ uFFF7＆＃34;，＆＃34; \ uFFF8＆＃34;，＆＃34; \ uFFF9＆＃34;，＆＃34; \ uFFFA＆＃34;，＆＃34; \ uFFFB＆＃34;，＆＃34; \ uFFFC＆＃34;，＆＃34; \ uFFFD＆＃34;，＆＃34; \ uFFFE＆＃34;，＆＃34; \ uFFFF＆＃34;]

#pack
#encode
#split

（不适用于所有代码点......）

(32..127).map {|i| i.chr(Encoding::UTF_8)}

但是用65535替换127.享受滚动！

IRB（主）：011：0＆GT; （32..127）.map {| i | i.chr}
=＆GT; [＆＃34; ＆＃34;，＆＃34;！＆＃34;，＆＃34; \＆＃34;＆＃34;，＆＃34;＃＆＃34;，＆＃34; $＆＃34;，＆＃34;％＆＃34;，＆＃34;＆amp;＆＃34;，＆＃34;＆＃39;＆＃34;，＆＃34;（＆＃34;，＆＃34;）＆＃ 34;，＆＃34; *＆＃34;，＆＃34; +＆＃34;，＆＃34;，＆＃34;，＆＃34; - ＆＃34;，＆＃34;。＆＃ 34;，＆＃34; /＆＃34;，＆＃34; 0＆＃34;，＆＃34; 1＆＃34;，＆＃34; 2＆＃34;，＆＃34; 3＆＃34;，＆＃34; 4＆＃34;，＆＃34; 5＆＃34;，＆＃34; 6＆＃34;，＆＃34; 7＆＃34;，＆＃34; 8＆＃34;，＆＃34; 9＆＃ 34;，＆＃34;：＆＃34;，＆＃34 ;;＆＃34;，＆＃34;＆lt;＆＃34;，＆＃34; =＆＃34;，＆＃34;＆gt; ＆＃34;，＆＃34;？＆＃34;，＆＃34; @＆＃34;，＆＃34; A＆＃34;，＆＃34; B＆＃34;，＆＃34; C＆＃34 ;，＆＃34; D＆＃34;，＆＃34; E＆＃34;，＆＃34; F＆＃34;，＆＃34; G＆＃34;，＆＃34; H＆＃34;，＆＃34 ;我＆＃34;，＆＃34; J＆＃34;，＆＃34; K＆＃34;，＆＃34; L＆＃34;，＆＃34; M＆＃34;，＆＃34; N＆＃34; ，＆＃34; O＆＃34;，＆＃34; P＆＃34;，＆＃34; Q＆＃34;，＆＃34; R＆＃34;，＆＃34; S＆＃34;，＆＃34; T＆＃34;，＆＃34; U＆＃34;，＆＃34; V＆＃34;，＆＃34; W＆＃34;，＆＃34; X＆＃34;，＆＃34; Y＆＃34;，＆＃34; Z＆＃34;，＆＃34; [＆＃34;，＆＃34; \＆＃34;，＆＃34;]＆＃34;，＆＃34; ^＆＃34;，＆＃34; _＆＃34;，＆＃34;`＆＃34;，＆＃34; a＆＃34;，＆＃34; b＆＃34;，＆＃34; c＆＃34;，＆＃34; d＆＃34;，＆＃34; e＆＃34;，＆＃34; f＆＃34;，＆＃34; g＆＃34;，＆＃34; h＆＃34;，＆＃34; i＆＃34;，＆＃34; j＆＃34;，＆＃34; k＆＃34;，＆＃34; l＆＃34;，＆＃34; m＆＃34;，＆＃34; n＆＃34;，＆＃34; o＆＃34;，＆＃34; p＆＃34;，＆＃34; q＆＃34;，＆＃34; r＆＃34;，＆＃34; s＆＃34;，＆＃34; t＆＃34;，＆＃34; u＆＃34;，＆＃34; v＆＃34;，＆＃34; w＆＃34;，＆＃34; x＆＃34;，＆＃34; y＆＃34;，＆＃34; z＆＃34;，＆＃34; {＆＃34;，＆＃34; | ＆＃34;，＆＃34;}＆＃34;，＆＃34;〜＆＃34;，＆＃34; \ x7F＆＃34;]

Answer 2

解析UnicodeData.txt（tr44＃Property Definitions中描述的字段）

要特别注意范围：

3400    <CJK Ideograph Extension A, First>
4DB5    <CJK Ideograph Extension A, Last>
4E00    <CJK Ideograph, First>
9FD5    <CJK Ideograph, Last>
AC00    <Hangul Syllable, First>
D7A3    <Hangul Syllable, Last>
D800    <Non Private Use High Surrogate, First>
DB7F    <Non Private Use High Surrogate, Last>
DB80    <Private Use High Surrogate, First>
DBFF    <Private Use High Surrogate, Last>
DC00    <Low Surrogate, First>
DFFF    <Low Surrogate, Last>
E000    <Private Use, First>
F8FF    <Private Use, Last>
20000   <CJK Ideograph Extension B, First>
2A6D6   <CJK Ideograph Extension B, Last>
2A700   <CJK Ideograph Extension C, First>
2B734   <CJK Ideograph Extension C, Last>
2B740   <CJK Ideograph Extension D, First>
2B81D   <CJK Ideograph Extension D, Last>
2B820   <CJK Ideograph Extension E, First>
2CEA1   <CJK Ideograph Extension E, Last>
F0000   <Plane 15 Private Use, First>
FFFFD   <Plane 15 Private Use, Last>
100000  <Plane 16 Private Use, First>
10FFFD  <Plane 16 Private Use, Last>

这取决于您需要的数据，是否迭代这些范围。

Answer 3

[*32..65535].map do |e|
  e.chr(Encoding::UTF_8).tap do |char|
    char =~ /\p{Alnum}|\p{Punct}/ || raise 
  end rescue nil # rescuing both conversion and self-raised
end.compact

以上内容遍历所有代码点，选择alphanumerics and punctuation。

NB 上面的方法，虽然或多或少是健壮的，但很容易匹配变音符号，这是ç或ö等组合字符的一部分。

需要包含所有unicode字符的范围

3 个答案: