Apache访问日志调查

时间:2016-02-28 04:47:55

标签: apache logging webserver web-crawler

我一直在监控电子商务服务器的谷歌分析。通常我们的访客少于10人。但最近我看到了不寻常的机器人活动。有时它一次跳到50多个连接。一切都在几分钟之内。我不确定在我们的Google PPC广告系列中是否是一个糟糕的抓取工具或有人点击欺诈。

以下是我们access_log的一小部分内容。检查IP地址并没有发现太多。 ipaddresses也是独一无二的,当我比较几天时,我找不到来自同一个ip的任何重复访问。

<DataGrid x:Name="DGrid2" VerticalScrollBarVisibility="Visible" AutoGenerateColumns="False">
    <DataGrid.VerticalGridLinesBrush>
        <SolidColorBrush Color="Red"/>
    </DataGrid.VerticalGridLinesBrush>
    <DataGrid.HorizontalGridLinesBrush>
        <SolidColorBrush Color="Red"/>
    </DataGrid.HorizontalGridLinesBrush>
    <DataGridTemplateColumn Header="#">
        <DataGridTemplateColumn.CellTemplate>
            <DataTemplate>
                <TextBlock Text="{Binding SNo}" />
            </DataTemplate>
        </DataGridTemplateColumn.CellTemplate>
    </DataGridTemplateColumn>
    <DataGridTemplateColumn>
        <DataGridTemplateColumn.CellTemplate>
            <DataTemplate>
                <StackPanel Orientation="Horizontal">
                    <Label Content="{Binding F1}" BorderThickness="0 0 1 0" BorderBrush="Red" />
                    <Label Content="{Binding F2}" />
                </StackPanel>
            </DataTemplate>
        </DataGridTemplateColumn.CellTemplate>
    </DataGridTemplateColumn>
    <DataGridTemplateColumn>
        <DataGridTemplateColumn.CellTemplate>
            <DataTemplate>
                <TextBlock Text="{Binding Field1}" />
            </DataTemplate>
        </DataGridTemplateColumn.CellTemplate>
    </DataGridTemplateColumn>
    <DataGridTemplateColumn>
        <DataGridTemplateColumn.HeaderTemplate>
            <DataTemplate>
                <CheckBox/>
            </DataTemplate>
        </DataGridTemplateColumn.HeaderTemplate>
        <DataGridTemplateColumn.CellTemplate>
            <DataTemplate>
                <CheckBox />
            </DataTemplate>
        </DataGridTemplateColumn.CellTemplate>
    </DataGridTemplateColumn>
    <DataGridTemplateColumn Header="Description">
        <DataGridTemplateColumn.CellTemplate>
            <DataTemplate>
                <TextBlock Text="{Binding Description}" />
            </DataTemplate>
        </DataGridTemplateColumn.CellTemplate>
    </DataGridTemplateColumn>
</DataGrid>

我不确定这是否相关,但我也看到一些来自ahrefs.com/robot/和webmeup-crawler.com/的爬行,但他们的IP地址是一致的。我已经修改了robots.txt来阻止ahrefs.com bot。

1 个答案:

答案 0 :(得分:0)

robots.txt可能会被滥用,但它主要用于谷歌机器人寻找可供搜索的内容。我在自己的日志中注意到谷歌和随机IP地址都会尝试各种不同的目录,包括:

/phpMyAdmin/scripts/setup.php
/phpmyadmin/scripts/setup.php
/pma/scripts/setup.php
/robots.txt (Google in this case)
'9\xdd\xb1\xf8\xa1\xa8\xa8\x82\x904\x1f\x84\xbeNv\x7fa\xd9\xd4,)\x98^\xbf\x98\x14\x82q
\x19\xa5\b\x7f\xee\x98\x02\xde_\xa1\x1b\xc0
\x06\xe6\xf2\xba\"!=\xe1\x18?\xb6\xf5$\xb4n0[\x92\xe9_
\x8b[Y5nS\x1d (some kind of hash cracker)
//wp-login.php
/blog//wp-login.php
/wordpress//wp-login.php
/wp//wp-login.php
/?author=1

他们正在寻找的主要是免费下载模板中的预创建目录。 你应该知道几乎所有从66.249开始的IP都是google。 其余的你可以自己查找。 在您的情况下,看起来机器人正在寻找惠普打印机。

希望这有帮助