为什么findstr不能正确处理案例(在某些情况下)?

时间:2010-04-14 07:56:10

标签: windows regex batch-file cmd findstr

在cmd.exe中编写一些最近的脚本时,我需要将findstr与正则表达式一起使用 - 客户需要标准cmd.exe命令(没有GnuWin32,Cygwin也不是VBS,也不是Powershell)。

我只是想知道变量是否包含任何大写字符并尝试使用:

> set myvar=abc
> echo %myvar%|findstr /r "[A-Z]"
abc
> echo %errorlevel%
0

%myvar%设置为abc时,实际输出字符串并将errorlevel设置为0,表示找到了匹配项。

但是,完整列表变体:

> echo %myvar%|findstr /r "[ABCDEFGHIJKLMNOPQRSTUVWXYZ]"
> echo %errorlevel%
1

输出该行,并且正确地将errorlevel设置为1。

另外:

> echo %myvar%|findstr /r "^[A-Z]*$"
> echo %errorlevel%
1

也按预期工作。

我显然在这里错过了某事,即使这只是因为findstr在某种程度上被打破了。

为什么第一个(范围)正则表达式在这种情况下不起作用?


然而更奇怪:

> echo %myvar%|findstr /r "[A-Z]"
abc
> echo %myvar%|findstr /r "[A-Z][A-Z]"
abc
> echo %myvar%|findstr /r "[A-Z][A-Z][A-Z]"
> echo %myvar%|findstr /r "[A]"

上面的最后两个也没有输出字符串!!

3 个答案:

答案 0 :(得分:14)

我认为这主要是一个可怕的设计缺陷。

我们都希望根据ASCII码值整理范围。但他们没有 - 相反,范围是基于与SORT使用的默认序列几乎匹配的整理顺序。 编辑 - FINDSTR使用的确切归类序列现在可在https://stackoverflow.com/a/20159191/1012053的标题为正则表达式字符类范围[xy] <的部分下找到/强>

我准备了一个文本文件,每个扩展的ASCII字符包含一行,从1到255,不包括10(LF),13(CR)和26(Windows上的EOF)。 在每一行上我都有字符,后跟一个空格,后跟字符的十进制代码。然后,我通过SORT运行该文件,并在sortedChars.txt文件中捕获输出。

我现在可以轻松地针对此排序文件测试任何正则表达式范围,并演示如何通过与SORT几乎相同的归类序列来确定范围。

>findstr /nrc:"^[0-9]" sortedChars.txt
137:0 048
138:½ 171
139:¼ 172
140:1 049
141:2 050
142:² 253
143:3 051
144:4 052
145:5 053
146:6 054
147:7 055
148:8 056
149:9 057

结果并不完全符合我们的预期,因为混合中会出现字符171,172和253。但结果很有道理。行号前缀对应于SORT校对序列,您可以根据SORT序列看到该范围完全匹配。

这是另一个完全遵循SORT序列的范围测试:

>findstr /nrc:"^[!-=]" sortedChars.txt
34:! 033
35:" 034
36:# 035
37:$ 036
38:% 037
39:& 038
40:( 040
41:) 041
42:* 042
43:, 044
44:. 046
45:/ 047
46:: 058
47:; 059
48:? 063
49:@ 064
50:[ 091
51:\ 092
52:] 093
53:^ 094
54:_ 095
55:` 096
56:{ 123
57:| 124
58:} 125
59:~ 126
60:¡ 173
61:¿ 168
62:¢ 155
63:£ 156
64:¥ 157
65:₧ 158
66:+ 043
67:∙ 249
68:< 060
69:= 061

有一个带有字母字符的小异常。字符“a”在“A”和“Z”之间排序,但它与[A-Z]不匹配。 “z”在“Z”之后排序,但它匹配[A-Z]。 [a-z]存在相应的问题。 “A”在“a”之前排序,但它与[a-z]匹配。 “Z”在“a”和“z”之间排序,但它与[a-z]不匹配。

以下是[A-Z]结果:

>findstr /nrc:"^[A-Z]" sortedChars.txt
151:A 065
153:â 131
154:ä 132
155:à 133
156:å 134
157:Ä 142
158:Å 143
159:á 160
160:ª 166
161:æ 145
162:Æ 146
163:B 066
164:b 098
165:C 067
166:c 099
167:Ç 128
168:ç 135
169:D 068
170:d 100
171:E 069
172:e 101
173:é 130
174:ê 136
175:ë 137
176:è 138
177:É 144
178:F 070
179:f 102
180:ƒ 159
181:G 071
182:g 103
183:H 072
184:h 104
185:I 073
186:i 105
187:ï 139
188:î 140
189:ì 141
190:í 161
191:J 074
192:j 106
193:K 075
194:k 107
195:L 076
196:l 108
197:M 077
198:m 109
199:N 078
200:n 110
201:ñ 164
202:Ñ 165
203:ⁿ 252
204:O 079
205:o 111
206:ô 147
207:ö 148
208:ò 149
209:Ö 153
210:ó 162
211:º 167
212:P 080
213:p 112
214:Q 081
215:q 113
216:R 082
217:r 114
218:S 083
219:s 115
220:ß 225
221:T 084
222:t 116
223:U 085
224:u 117
225:û 150
226:ù 151
227:ú 163
228:ü 129
229:Ü 154
230:V 086
231:v 118
232:W 087
233:w 119
234:X 088
235:x 120
236:Y 089
237:y 121
238:ÿ 152
239:Z 090
240:z 122

[a-z]结果

>findstr /nrc:"^[a-z]" sortedChars.txt
151:A 065
152:a 097
153:â 131
154:ä 132
155:à 133
156:å 134
157:Ä 142
158:Å 143
159:á 160
160:ª 166
161:æ 145
162:Æ 146
163:B 066
164:b 098
165:C 067
166:c 099
167:Ç 128
168:ç 135
169:D 068
170:d 100
171:E 069
172:e 101
173:é 130
174:ê 136
175:ë 137
176:è 138
177:É 144
178:F 070
179:f 102
180:ƒ 159
181:G 071
182:g 103
183:H 072
184:h 104
185:I 073
186:i 105
187:ï 139
188:î 140
189:ì 141
190:í 161
191:J 074
192:j 106
193:K 075
194:k 107
195:L 076
196:l 108
197:M 077
198:m 109
199:N 078
200:n 110
201:ñ 164
202:Ñ 165
203:ⁿ 252
204:O 079
205:o 111
206:ô 147
207:ö 148
208:ò 149
209:Ö 153
210:ó 162
211:º 167
212:P 080
213:p 112
214:Q 081
215:q 113
216:R 082
217:r 114
218:S 083
219:s 115
220:ß 225
221:T 084
222:t 116
223:U 085
224:u 117
225:û 150
226:ù 151
227:ú 163
228:ü 129
229:Ü 154
230:V 086
231:v 118
232:W 087
233:w 119
234:X 088
235:x 120
236:Y 089
237:y 121
238:ÿ 152
240:z 122

排序在小写之前排序大写。 (编辑 - 我刚刚阅读了SORT的帮助,并了解到它没有区分大小写。我的SORT输出在低位之前始终保持高位的事实可能是输入顺序的结果。)< / em>但正则表达式显然在大写之前对小写进行排序。以下所有范围都无法匹配任何字符。

>findstr /nrc:"^[A-a]" sortedChars.txt

>findstr /nrc:"^[B-b]" sortedChars.txt

>findstr /nrc:"^[C-c]" sortedChars.txt

>findstr /nrc:"^[D-d]" sortedChars.txt

撤消订单会找到字符。

>findstr /nrc:"^[a-A]" sortedChars.txt
151:A 065
152:a 097

>findstr /nrc:"^[b-B]" sortedChars.txt
163:B 066
164:b 098

>findstr /nrc:"^[c-C]" sortedChars.txt
165:C 067
166:c 099

>findstr /nrc:"^[d-D]" sortedChars.txt
169:D 068
170:d 100

还有其他字符,正则表达式的排序方式与SORT不同,但我没有精确的列表。

答案 1 :(得分:5)

所以,如果你想要

  • 仅限数字:FindStr /R "^[0123-9]*$"

  • 八进制:FindStr /R "^[0123-7]*$"

  • hexadécimal:FindStr /R "^[0123-9aAb-Cd-EfF]*$"

  • 没有重音的字母:FindStr /R "^[aAb-Cd-EfFg-Ij-NoOp-St-Uv-YzZ]*$"

  • 字母数字:FindStr /R "^[0123-9aAb-Cd-EfFg-Ij-NoOp-St-Uv-YzZ]*$"

答案 2 :(得分:3)

这似乎是由在正则表达式搜索中使用范围引起的。

范围中的第一个字符不会出现。对于非范围,它根本不会发生。

> echo a | findstr /r "[A-C]"
> echo b | findstr /r "[A-C]"
    b
> echo c | findstr /r "[A-C]"
    c
> echo d | findstr /r "[A-C]"
> echo b | findstr /r "[B-C]"
> echo c | findstr /r "[B-C]"
    c

> echo a | findstr /r "[ABC]"
> echo b | findstr /r "[ABC]"
> echo c | findstr /r "[ABC]"
> echo d | findstr /r "[ABC]"
> echo b | findstr /r "[BC]"
> echo c | findstr /r "[BC]"

> echo A | findstr /r "[A-C]"
    A
> echo B | findstr /r "[A-C]"
    B
> echo C | findstr /r "[A-C]"
    C
> echo D | findstr /r "[A-C]"

根据SS64 CMD FINDSTR page(以令人惊叹的圆形显示方式引用此问题),范围为[A-Z]

  

...包括完整的英文字母,包括大写和小写(“a”除外),以及带有变音符号的非英语字母字符。

为了解决我的环境中的问题,我只使用了特定的正则表达式(例如[ABCD]而不是[A-D])。对于那些允许的方法,更合理的方法是下载CygWinGnuWin32并使用其中一个软件包中的grep