有几个机器人在我们的网站上抓页,我想知道如何标记内容,以后再搜索它 - 找出被删除内容的最终位置?
我在页面上设置了一个唯一的HTML注释,但这可能不会被删除。
我们网页上的所有链接都是JavaScript链接,通过JS函数路由 - 这可能有助于我们的其他内容被删除。
有没有办法为此目的标记网站上的链接?
答案 0 :(得分:1)
如果您在链接中使用特定的utm标记,则可以完成此操作。显然,你需要做一些非常独特的事情。 UTM标签经常用于广告,但它们可以改变用途。以下是对它们的快速解释: http://www.intownwebdesign.com/google-analytics/google-analytics-utm-link-tagging-explained.html
我的意见是,仅通过查找链接来跟踪网络抓取工具仍然很困难。通常刮刀会刮掉标签,链接等。你应该首先考虑阻止他们抓取你内容的方法,但那是我的偏见。
为了充分披露,我是Distil Networks的联合创始人,所以我们推动人们阻止僵尸程序。