regexpression [R]“大约52,883,038结果”

时间:2011-10-31 23:11:04

标签: numbers grep expression sequence

我要解析html网页(特别是Google搜索结果页) 寻找特定的计数器字符串

  

“关于*很多结果”

其中*many的范围为0到999,999,999,999

  

grep(“关于[0-9]结果”,文件)

我无法弄清楚如何将数字范围(包括逗号)合并到正则表达式中。任何人都可以澄清吗?我已经找到了类似的问题,但他们的代码不能用于此任务。

我猜是介绍某种通配符“。”但我不认为我正确使用它 我想到的结构是

  

任何#Time {{Any#Times([0-9])},}

解决了自己的问题...... 根本不必幻想

  

“关于。*结果”

工作正常

1 个答案:

答案 0 :(得分:0)

根据页面的内容,您的。*可以使用,但可能会收到很长且不正确的字符串。

如果您想确保只获得数字,请尝试:

"About ([0-9]+|[0-9]{1,3}(,[0-9]{3})*) results"

我已经使用grep -E对其进行了测试,并且它会为您提供未分组的数字:

About 10000000 results

以及使用英国/英国惯例的分组号码:

About 100,000 results

但不是非数字:

About a bajillion results

或编号错误的分组:

About 100,0 results