在cmd.exe中编写一些最近的脚本时,我需要将findstr
与正则表达式一起使用 - 客户需要标准cmd.exe命令(没有GnuWin32,Cygwin也不是VBS,也不是Powershell)。
我只是想知道变量是否包含任何大写字符并尝试使用:
> set myvar=abc
> echo %myvar%|findstr /r "[A-Z]"
abc
> echo %errorlevel%
0
当%myvar%
设置为abc
时,实际输出字符串并将errorlevel
设置为0,表示找到了匹配项。
但是,完整列表变体:
> echo %myvar%|findstr /r "[ABCDEFGHIJKLMNOPQRSTUVWXYZ]"
> echo %errorlevel%
1
不输出该行,并且正确地将errorlevel
设置为1。
另外:
> echo %myvar%|findstr /r "^[A-Z]*$"
> echo %errorlevel%
1
也按预期工作。
我显然在这里错过了某事,即使这只是因为findstr
在某种程度上被打破了。
为什么第一个(范围)正则表达式在这种情况下不起作用?
然而更奇怪:
> echo %myvar%|findstr /r "[A-Z]"
abc
> echo %myvar%|findstr /r "[A-Z][A-Z]"
abc
> echo %myvar%|findstr /r "[A-Z][A-Z][A-Z]"
> echo %myvar%|findstr /r "[A]"
上面的最后两个也没有输出字符串!!
答案 0 :(得分:14)
我认为这主要是一个可怕的设计缺陷。
我们都希望根据ASCII码值整理范围。但他们没有 - 相反,范围是基于与SORT使用的默认序列几乎匹配的整理顺序。 编辑 - FINDSTR使用的确切归类序列现在可在https://stackoverflow.com/a/20159191/1012053的标题为正则表达式字符类范围[xy] <的部分下找到/强> 的
我准备了一个文本文件,每个扩展的ASCII字符包含一行,从1到255,不包括10(LF),13(CR)和26(Windows上的EOF)。 在每一行上我都有字符,后跟一个空格,后跟字符的十进制代码。然后,我通过SORT运行该文件,并在sortedChars.txt文件中捕获输出。
我现在可以轻松地针对此排序文件测试任何正则表达式范围,并演示如何通过与SORT几乎相同的归类序列来确定范围。
>findstr /nrc:"^[0-9]" sortedChars.txt
137:0 048
138:½ 171
139:¼ 172
140:1 049
141:2 050
142:² 253
143:3 051
144:4 052
145:5 053
146:6 054
147:7 055
148:8 056
149:9 057
结果并不完全符合我们的预期,因为混合中会出现字符171,172和253。但结果很有道理。行号前缀对应于SORT校对序列,您可以根据SORT序列看到该范围完全匹配。
这是另一个完全遵循SORT序列的范围测试:
>findstr /nrc:"^[!-=]" sortedChars.txt
34:! 033
35:" 034
36:# 035
37:$ 036
38:% 037
39:& 038
40:( 040
41:) 041
42:* 042
43:, 044
44:. 046
45:/ 047
46:: 058
47:; 059
48:? 063
49:@ 064
50:[ 091
51:\ 092
52:] 093
53:^ 094
54:_ 095
55:` 096
56:{ 123
57:| 124
58:} 125
59:~ 126
60:¡ 173
61:¿ 168
62:¢ 155
63:£ 156
64:¥ 157
65:₧ 158
66:+ 043
67:∙ 249
68:< 060
69:= 061
有一个带有字母字符的小异常。字符“a”在“A”和“Z”之间排序,但它与[A-Z]不匹配。 “z”在“Z”之后排序,但它匹配[A-Z]。 [a-z]存在相应的问题。 “A”在“a”之前排序,但它与[a-z]匹配。 “Z”在“a”和“z”之间排序,但它与[a-z]不匹配。
以下是[A-Z]结果:
>findstr /nrc:"^[A-Z]" sortedChars.txt
151:A 065
153:â 131
154:ä 132
155:à 133
156:å 134
157:Ä 142
158:Å 143
159:á 160
160:ª 166
161:æ 145
162:Æ 146
163:B 066
164:b 098
165:C 067
166:c 099
167:Ç 128
168:ç 135
169:D 068
170:d 100
171:E 069
172:e 101
173:é 130
174:ê 136
175:ë 137
176:è 138
177:É 144
178:F 070
179:f 102
180:ƒ 159
181:G 071
182:g 103
183:H 072
184:h 104
185:I 073
186:i 105
187:ï 139
188:î 140
189:ì 141
190:í 161
191:J 074
192:j 106
193:K 075
194:k 107
195:L 076
196:l 108
197:M 077
198:m 109
199:N 078
200:n 110
201:ñ 164
202:Ñ 165
203:ⁿ 252
204:O 079
205:o 111
206:ô 147
207:ö 148
208:ò 149
209:Ö 153
210:ó 162
211:º 167
212:P 080
213:p 112
214:Q 081
215:q 113
216:R 082
217:r 114
218:S 083
219:s 115
220:ß 225
221:T 084
222:t 116
223:U 085
224:u 117
225:û 150
226:ù 151
227:ú 163
228:ü 129
229:Ü 154
230:V 086
231:v 118
232:W 087
233:w 119
234:X 088
235:x 120
236:Y 089
237:y 121
238:ÿ 152
239:Z 090
240:z 122
[a-z]结果
>findstr /nrc:"^[a-z]" sortedChars.txt
151:A 065
152:a 097
153:â 131
154:ä 132
155:à 133
156:å 134
157:Ä 142
158:Å 143
159:á 160
160:ª 166
161:æ 145
162:Æ 146
163:B 066
164:b 098
165:C 067
166:c 099
167:Ç 128
168:ç 135
169:D 068
170:d 100
171:E 069
172:e 101
173:é 130
174:ê 136
175:ë 137
176:è 138
177:É 144
178:F 070
179:f 102
180:ƒ 159
181:G 071
182:g 103
183:H 072
184:h 104
185:I 073
186:i 105
187:ï 139
188:î 140
189:ì 141
190:í 161
191:J 074
192:j 106
193:K 075
194:k 107
195:L 076
196:l 108
197:M 077
198:m 109
199:N 078
200:n 110
201:ñ 164
202:Ñ 165
203:ⁿ 252
204:O 079
205:o 111
206:ô 147
207:ö 148
208:ò 149
209:Ö 153
210:ó 162
211:º 167
212:P 080
213:p 112
214:Q 081
215:q 113
216:R 082
217:r 114
218:S 083
219:s 115
220:ß 225
221:T 084
222:t 116
223:U 085
224:u 117
225:û 150
226:ù 151
227:ú 163
228:ü 129
229:Ü 154
230:V 086
231:v 118
232:W 087
233:w 119
234:X 088
235:x 120
236:Y 089
237:y 121
238:ÿ 152
240:z 122
排序在小写之前排序大写。 (编辑 - 我刚刚阅读了SORT的帮助,并了解到它没有区分大小写。我的SORT输出在低位之前始终保持高位的事实可能是输入顺序的结果。)< / em>但正则表达式显然在大写之前对小写进行排序。以下所有范围都无法匹配任何字符。
>findstr /nrc:"^[A-a]" sortedChars.txt
>findstr /nrc:"^[B-b]" sortedChars.txt
>findstr /nrc:"^[C-c]" sortedChars.txt
>findstr /nrc:"^[D-d]" sortedChars.txt
撤消订单会找到字符。
>findstr /nrc:"^[a-A]" sortedChars.txt
151:A 065
152:a 097
>findstr /nrc:"^[b-B]" sortedChars.txt
163:B 066
164:b 098
>findstr /nrc:"^[c-C]" sortedChars.txt
165:C 067
166:c 099
>findstr /nrc:"^[d-D]" sortedChars.txt
169:D 068
170:d 100
还有其他字符,正则表达式的排序方式与SORT不同,但我没有精确的列表。
答案 1 :(得分:5)
所以,如果你想要
仅限数字:FindStr /R "^[0123-9]*$"
八进制:FindStr /R "^[0123-7]*$"
hexadécimal:FindStr /R "^[0123-9aAb-Cd-EfF]*$"
没有重音的字母:FindStr /R "^[aAb-Cd-EfFg-Ij-NoOp-St-Uv-YzZ]*$"
字母数字:FindStr /R "^[0123-9aAb-Cd-EfFg-Ij-NoOp-St-Uv-YzZ]*$"
答案 2 :(得分:3)
这似乎是由在正则表达式搜索中使用范围引起的。
范围中的第一个字符不会出现。对于非范围,它根本不会发生。
> echo a | findstr /r "[A-C]"
> echo b | findstr /r "[A-C]"
b
> echo c | findstr /r "[A-C]"
c
> echo d | findstr /r "[A-C]"
> echo b | findstr /r "[B-C]"
> echo c | findstr /r "[B-C]"
c
> echo a | findstr /r "[ABC]"
> echo b | findstr /r "[ABC]"
> echo c | findstr /r "[ABC]"
> echo d | findstr /r "[ABC]"
> echo b | findstr /r "[BC]"
> echo c | findstr /r "[BC]"
> echo A | findstr /r "[A-C]"
A
> echo B | findstr /r "[A-C]"
B
> echo C | findstr /r "[A-C]"
C
> echo D | findstr /r "[A-C]"
根据SS64 CMD FINDSTR
page(以令人惊叹的圆形显示方式引用此问题),范围为[A-Z]
:
...包括完整的英文字母,包括大写和小写(“a”除外),以及带有变音符号的非英语字母字符。
为了解决我的环境中的问题,我只使用了特定的正则表达式(例如[ABCD]
而不是[A-D]
)。对于那些允许的方法,更合理的方法是下载CygWin或GnuWin32并使用其中一个软件包中的grep
。