DotNetNuke robots.txt没有受到谷歌机器人的尊重

时间:2017-12-02 17:56:28

标签: dotnetnuke robots.txt

我有一个多门户网站dotnetnuke安装:
    domain1.com
    domain2.com
    domain3.com等

服务器是32演出,8核。

我有一个robots.txt文件。谷歌开始抓取时,我看到多个谷歌IP地址的cpu峰值达到100%。根据IIS的说法,每次启动时,它尝试抓取的网址都是/lmm-product-service/elmah.axd/detail?id=af51e96f-d0cd-4598-90ad-ebe980947fa6,并带有新的ID。对于谷歌机器人的所有当前实例,该URL都是相同的,但在再次开始爬行时会发生变化。

该网址无效。当我尝试在浏览器中访问它时,我收到404错误 - 未找到。

我试图在我的robots.txt中禁用/ lmm-product-service /无效:

    User-agent: Googlebot
    Disallow: /*/ctl/       # Googlebot permits *
    Disallow: /admin/
    Disallow: /lmm-product-service/

实际上,这不仅是谷歌这样做的。它也是ahrefs但我在防火墙上阻止了它们。

有什么建议吗?

2 个答案:

答案 0 :(得分:0)

问题是ELMAH,一个外部ASP.NET记录器。如果DNN使用此记录器,则DNN软件中存在错误!升级DNN !! ...错误:System.ComponentModel.Win32Exception您确定Google Bot是真的吗?那里有假货

答案 1 :(得分:0)

确定。我的手指交叉。我采取了不同的策略。我只是添加了一个urlrewrite规则:

    <rule name="KillElmahRequests" enabled="true" stopProcessing="true">
        <match url=".*elmah.*" />
        <action type="AbortRequest" />
    </rule>

现在差不多90分钟,没有问题。我仍然不知道为什么机器人试图抓取一个不存在的网址以及为什么,因为它不存在,它正在吃掉w3wp.exe进程,但这似乎是工作