从输入中查找正则表达式模式

时间:2013-08-04 10:41:03

标签: regex

我有这样的用户访问日志:

pagename    url
broker_pv   /broker/934832
broker_pv   /broker/983432
broker_pv   /broker/n/342349
listing_pv  /listing/a1-b2/
listing_pv  /listing/c3/

我想知道未来的网址“/ broker / 245729”是否属于“broker_pv”或“listing_pv”,或者根本不匹配。

这就像一个机器学习过程:我给计算机提供一些原始数据,它学习,然后帮我过滤。

我能想到的一种方法是“模式查找”过程。即,从原始输入,我们人可以推断“broker_pv”网址将匹配模式“/ broker /(n /)?[0-9] +”。所以当一个像“/ broker / 245729”这样的网址出现时,我可以测试它的所有模式,并判断它属于哪个“页面名称”。

然后问题是,如何找出这些模式,从而建立一个“页面名称 - 模式对集合”以供进一步使用。

或者有更好的方法,希望如此?

0 个答案:

没有答案