如何让MediaWiki忽略Google Search Appliance中的网页浏览量?

时间:2010-01-19 18:56:22

标签: mediawiki web-crawler google-search-appliance

每个MediaWiki页面上的网页浏览计数器似乎是识别热门网页的绝佳方式,这些网页值得付出更多努力以保持最新和有用,但我遇到了问题。

我们使用Google Search Appliance索引我们的MediaWiki安装。我遇到的问题是GSA每次抓取页面时都会递增页面视图计数器。这完全支配统计数据,淹没了真实用户的观点。

我知道如何reset the page counters重新开始。但有没有办法将MediaWiki配置为忽略来自GSA的页面请求以计算页面浏览量?

2 个答案:

答案 0 :(得分:3)

这可以通过在Article.php中添加条件来完成:

includes / Article.php:2861:function viewUpdates():

if( !$wgDisableCounters && !$wgUser->isAllowed('bot') && $this->getID() ) {

添加:

&& strpos($_SERVER['HTTP_USER_AGENT'], 'gsa-crawler') === false

其中gsa-crawler是默认gsa UA ...

的一部分

另一种方法是在GSA中设置Forms身份验证,并让它作为bot组中的用户登录wikimedia ..

答案 1 :(得分:3)

我们将此片段添加到LocalSettings.php,取得了巨大成功:

if (strpos($_SERVER['HTTP_USER_AGENT'], 'gsa-crawler') !== FALSE) {
  $wgDisableCounters = TRUE;
}

谢谢!