我一直在监控电子商务服务器的谷歌分析。通常我们的访客少于10人。但最近我看到了不寻常的机器人活动。有时它一次跳到50多个连接。一切都在几分钟之内。我不确定在我们的Google PPC广告系列中是否是一个糟糕的抓取工具或有人点击欺诈。
以下是我们access_log的一小部分内容。检查IP地址并没有发现太多。 ipaddresses也是独一无二的,当我比较几天时,我找不到来自同一个ip的任何重复访问。
<DataGrid x:Name="DGrid2" VerticalScrollBarVisibility="Visible" AutoGenerateColumns="False">
<DataGrid.VerticalGridLinesBrush>
<SolidColorBrush Color="Red"/>
</DataGrid.VerticalGridLinesBrush>
<DataGrid.HorizontalGridLinesBrush>
<SolidColorBrush Color="Red"/>
</DataGrid.HorizontalGridLinesBrush>
<DataGridTemplateColumn Header="#">
<DataGridTemplateColumn.CellTemplate>
<DataTemplate>
<TextBlock Text="{Binding SNo}" />
</DataTemplate>
</DataGridTemplateColumn.CellTemplate>
</DataGridTemplateColumn>
<DataGridTemplateColumn>
<DataGridTemplateColumn.CellTemplate>
<DataTemplate>
<StackPanel Orientation="Horizontal">
<Label Content="{Binding F1}" BorderThickness="0 0 1 0" BorderBrush="Red" />
<Label Content="{Binding F2}" />
</StackPanel>
</DataTemplate>
</DataGridTemplateColumn.CellTemplate>
</DataGridTemplateColumn>
<DataGridTemplateColumn>
<DataGridTemplateColumn.CellTemplate>
<DataTemplate>
<TextBlock Text="{Binding Field1}" />
</DataTemplate>
</DataGridTemplateColumn.CellTemplate>
</DataGridTemplateColumn>
<DataGridTemplateColumn>
<DataGridTemplateColumn.HeaderTemplate>
<DataTemplate>
<CheckBox/>
</DataTemplate>
</DataGridTemplateColumn.HeaderTemplate>
<DataGridTemplateColumn.CellTemplate>
<DataTemplate>
<CheckBox />
</DataTemplate>
</DataGridTemplateColumn.CellTemplate>
</DataGridTemplateColumn>
<DataGridTemplateColumn Header="Description">
<DataGridTemplateColumn.CellTemplate>
<DataTemplate>
<TextBlock Text="{Binding Description}" />
</DataTemplate>
</DataGridTemplateColumn.CellTemplate>
</DataGridTemplateColumn>
</DataGrid>
我不确定这是否相关,但我也看到一些来自ahrefs.com/robot/和webmeup-crawler.com/的爬行,但他们的IP地址是一致的。我已经修改了robots.txt来阻止ahrefs.com bot。
答案 0 :(得分:0)
robots.txt可能会被滥用,但它主要用于谷歌机器人寻找可供搜索的内容。我在自己的日志中注意到谷歌和随机IP地址都会尝试各种不同的目录,包括:
/phpMyAdmin/scripts/setup.php
/phpmyadmin/scripts/setup.php
/pma/scripts/setup.php
/robots.txt (Google in this case)
'9\xdd\xb1\xf8\xa1\xa8\xa8\x82\x904\x1f\x84\xbeNv\x7fa\xd9\xd4,)\x98^\xbf\x98\x14\x82q
\x19\xa5\b\x7f\xee\x98\x02\xde_\xa1\x1b\xc0
\x06\xe6\xf2\xba\"!=\xe1\x18?\xb6\xf5$\xb4n0[\x92\xe9_
\x8b[Y5nS\x1d (some kind of hash cracker)
//wp-login.php
/blog//wp-login.php
/wordpress//wp-login.php
/wp//wp-login.php
/?author=1
他们正在寻找的主要是免费下载模板中的预创建目录。 你应该知道几乎所有从66.249开始的IP都是google。 其余的你可以自己查找。 在您的情况下,看起来机器人正在寻找惠普打印机。
希望这有帮助