我的网站被抓取了吗?

时间:2018-01-30 06:53:46

标签: web-crawler mean-stack digital-ocean sendgrid

我有一个平均堆栈网站托管在DigitalOcean& nginx& ubuntu服务器。

在网站上,有一个带有按钮的网页,允许用户向我发送消息:

<button type="submit" class="btn btn-lg btn-theme" ng-click="mySubmit()">Send Message</button>

在控制器中:

$scope.mySubmit = function () {
    return $http.post('/httpOnly/request/addRequest', { "name": $scope.name, "mail": $scope.mail, "message": $scope.message })
}

然后,在后端,它使用https://github.com/sendgrid/sendgrid-nodejs向我发送电子邮件。

以前,一切都很好。但是,在1周内,我每天收到7封邮件,其中undefined值为 at java/lang/Object.wait(Native Method) at java/lang/Object.wait(Object.java:196(Compiled Code)) at com/sun/jndi/ldap/Connection.readReply(Connection.java:476) at com/sun/jndi/ldap/LdapClient.getSearchReply(LdapClient.java:643) at com/sun/jndi/ldap/LdapClient.search(LdapClient.java:566) at com/sun/jndi/ldap/LdapCtx.doSearch(LdapCtx.java:1997) at com/sun/jndi/ldap/LdapCtx.searchAux(LdapCtx.java:1859) at com/sun/jndi/ldap/LdapCtx.c_search(LdapCtx.java:1784) at com/sun/jndi/toolkit/ctx/ComponentDirContext.p_search(ComponentDirContext.java:398) at com/sun/jndi/toolkit/ctx/PartialCompositeDirContext.search(PartialCompositeDirContext.java:368) at com/sun/jndi/toolkit/ctx/PartialCompositeDirContext.search(PartialCompositeDirContext.java:351) at javax/naming/directory/InitialDirContext.search(InitialDirContext.java:278) 。这7封邮件几乎每天都到达。

有谁知道发生了什么?我的网站被抓取了吗?有没有办法验证?

1 个答案:

答案 0 :(得分:0)

答案肯定是肯定的。您应该能够通过检查nGinx日志并查找标准的bot用户代理字段来验证这一点。

被好机器人抓取(可能需要,为了出现在搜索引擎中)和被坏机器人发布的垃圾邮件之间存在差异。这些通常只是试图发布到例如博客评论部分与垃圾链接等。

要管理哪些商品机器人抓取您,您应该使用robots.txt

另一方面,坏机器人不会尊重robots.txt,甚至可能欺骗他们的用户代理,因此您无法使用它来阻止它们。

验证码或recaptcha质询可行。或者,考虑使用Cloudflare帐户。他们在互联网和您的网站之间实施可配置的Web应用程序防火墙,并自动阻止大量此类活动。