我要解析html网页(特别是Google搜索结果页) 寻找特定的计数器字符串
“关于*很多结果”
其中*many
的范围为0到999,999,999,999
grep(“关于[0-9]结果”,文件)
我无法弄清楚如何将数字范围(包括逗号)合并到正则表达式中。任何人都可以澄清吗?我已经找到了类似的问题,但他们的代码不能用于此任务。
我猜是介绍某种通配符“。”但我不认为我正确使用它 我想到的结构是
任何#Time {{Any#Times([0-9])},}
解决了自己的问题...... 根本不必幻想
“关于。*结果”
工作正常
答案 0 :(得分:0)
根据页面的内容,您的。*可以使用,但可能会收到很长且不正确的字符串。
如果您想确保只获得数字,请尝试:
"About ([0-9]+|[0-9]{1,3}(,[0-9]{3})*) results"
我已经使用grep -E
对其进行了测试,并且它会为您提供未分组的数字:
About 10000000 results
以及使用英国/英国惯例的分组号码:
About 100,000 results
但不是非数字:
About a bajillion results
或编号错误的分组:
About 100,0 results