我试图在过滤器参数中使用正则表达式但我无法使用$来确定字符串的结尾:
我的请求网址:
http://index.commoncrawl.org/CC-MAIN-2017-39-index?url= * COM /&安培;加入matchtype =域&安培; FL = URL&安培;过滤器=〜地址:的.com / $
~
,这使其成为正则表达式API文档:https://github.com/ikreymer/pywb/wiki/CDX-Server-API#api-reference
我基本上会在每个网站上获得很多结果,而我并不关心,我只想要TLD。
如果我把$
取出来就可以了。
答案 0 :(得分:1)
此查询应该有效:
http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=url:.*\.com/$
但将来你可能不得不使用http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=~url:.*\.com/$
pywb #249中存在一个已知错误。希望很快修复并部署到index.commoncrawl.org。作为临时解决方法:使用=
用于正则表达式过滤器,使用=~
用于"包含"过滤器。
matchType=domain
,因为该URL已与通配符模式*.com/
匹配。它应该查询域名,例如http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=commoncrawl.org&matchType=domain&fl=url
。
正则表达式从字段值的开头匹配,因此它应该是.*\.com/$
。请参阅pywb#250中的改进文档。