计算文本文件中的特定字符串[空白噪声]

时间:2013-03-24 14:12:35

标签: regex text whitespace

我希望得到特定字符串的所有内容,例如police officer在文本文件中,文本文件有很多空格,可能看起来像这样:

T h e  r a p i s t  r a n  f r o m  t h e  p o l i c e 
o f f i c e r, d o w n  M a i n  S t r e e t.

或者用最简单的形式:

The rapist ran from the police officer, down Main Street.

我对VBA或PHP知识渊博,但对其他快速解决方案持开放态度。

我在考虑正则表达式,但不确定,如果有办法的话。

2 个答案:

答案 0 :(得分:1)

您可以在正则表达式中添加空格,此处的搜索字符串类似于p\s*o\s*l\s*i\s*c\s*e\s+o\s*f\s*f\s*i\s*c\s*e\s*r\s*。如果您想要添加标签,可以将\s*更改为[\s\t]*。当然,您可以自动创建这些搜索字符串。

如果您想先试用正则表达式,可以使用大量的在线资源,例如http://regexpal.com/

答案 1 :(得分:0)

你可以这样做(在php中):

1)将文件内容读入一个字符串(如果你逐行进行,则读取该行的内容)

2)使用str_replace()从字符串中删除任何空格

3)使用strpos()查看字符串中是否有“policeofficer”。 (请注意,您还需要从输入中删除空格。)

4)返回strpos的结果(注意你需要使用===来测试)。

我不确定这是否是最有效的方法,但它应该有效。