应用错误收集

我试图在过滤器参数中使用正则表达式但我无法使用$来确定字符串的结尾：

我的请求网址：

http://index.commoncrawl.org/CC-MAIN-2017-39-index?url= * COM /＆安培;加入matchtype =域＆安培; FL = URL＆安培;过滤器=〜地址：的.com / $

我的过滤器正在使用~，这使其成为正则表达式
在python正则表达式测试器上正确验证：https://pythex.org/用于任何.com网址，只有TLD，例如：https://stackoverflow.com/

我基本上会在每个网站上获得很多结果，而我并不关心，我只想要TLD。如果我把$取出来就可以了。

此查询应该有效： http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=url:.*\.com/$

但将来你可能不得不使用http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=*.com/&fl=url&filter=~url:.*\.com/$

pywb #249中存在一个已知错误。希望很快修复并部署到index.commoncrawl.org。作为临时解决方法：使用=用于正则表达式过滤器，使用=~用于＆＃34;包含＆＃34;过滤器。
matchType=domain，因为该URL已与通配符模式*.com/匹配。它应该查询域名，例如http://index.commoncrawl.org/CC-MAIN-2017-39-index?url=commoncrawl.org&matchType=domain&fl=url。
正则表达式从字段值的开头匹配，因此它应该是.*\.com/$。请参阅pywb#250中的改进文档。