RegEx on CommonCrawl API过滤器参数

时间:2017-10-10 17:26:03

标签: python regex

我试图在过滤器参数中使用正则表达式但我无法使用$来确定字符串的结尾:

我的请求网址:

  

http://index.commoncrawl.org/CC-MAIN-2017-39-index?url= * COM /&安培;加入matchtype =域&安培; FL = URL&安培;过滤器=〜地址:的.com / $

API文档:https://github.com/ikreymer/pywb/wiki/CDX-Server-API#api-reference

我基本上会在每个网站上获得很多结果,而我并不关心,我只想要TLD。 如果我把$取出来就可以了。

1 个答案:

答案 0 :(得分:1)

此查询应该有效:   http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=url:.*\.com/$

但将来你可能不得不使用http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=~url:.*\.com/$

  1. pywb #249中存在一个已知错误。希望很快修复并部署到index.commoncrawl.org。作为临时解决方法:使用=用于正则表达式过滤器,使用=~用于"包含"过滤器。

  2. 此处不需要
  3. matchType=domain,因为该URL已与通配符模式*.com/匹配。它应该查询域名,例如http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=commoncrawl.org&matchType=domain&fl=url

  4. 正则表达式从字段值的开头匹配,因此它应该是.*\.com/$。请参阅pywb#250中的改进文档。