我可以区分“抓取器”和休闲浏览器吗?

时间:2018-12-04 16:25:36

标签: logging web-scraping server hosting

数据是否会与

有所不同
  • 普通页面浏览量
  • 抓取工具
  • 在页面上手动保存图像(右键单击保存

背景:一个竞争对手决定以像素为单位窃取我整个一页网站的全部像素。我在Google Analytics(分析)中看到25,000次以上的点击进入了从未创建过的页面,这给我带来了提示。

我熟悉网站开膛手copier / httools / etc之类的工具,当然也知道它们可以右键单击并保存所有图像并复制粘贴代码,但我希望这些人粗心大意并在日志。

我使用bluehost vps并具有cpanel。这是一个基本的HTML CSS网站。

也许可以通过特定的复印机工具看到吗? 还是我可以看到页面视图中加载的图像和右键单击下载的图像之间的区别?

感谢阅读!

1 个答案:

答案 0 :(得分:0)

User-Agent字符串通常是由行为良好的浏览器发送的,您可能还会注意到Google(或冒充他们的人)将发送类似以下内容的邮件:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

恶意软件始终可以通过简单地发送与以下内容相同的字符串来模仿某些合法的浏览器: Firefox。

我知道的所有浏览器都会发送相同的Useragent,而无论您是否右键单击链接并在链接上“另存为”,就像图像已经出现在浏览器的缓存中一样,我想它甚至不会触发页面加载后的第二个请求。

您可能会发现自己很幸运,并发现有人在使用具有独特用户代理的工具,该工具会使其与其他流量区分开来–如果我认为“小偷”使用的是一台计算机和一个互联网连接,那将是失败的可能会在您的日志文件中看到来自单个IP地址的大量连接…来自一个IP(或同一区域中的一组IP?是否正在寻求关联的GeoIP数据库)的快速启动请求。