我有一个像IMDB这样的网站。所有数据均可公开获取。我想知道如何保护网络抓取工具的数据?
答案 0 :(得分:-1)
只有一种针对刮刀的全面防范方法,即验证码。但由于它会影响用户体验,因此大多数网站都会避开它。
另一个选择是使用AJAX加载数据。这将有助于避免使用不构建JavaScript的抓取工具,但可以使用Selenium WebDriver创建一个。此外,如果你进入谷歌排名和所有的话,AJAX对搜索引擎优化也是不利的。
更有效和更棒的方式是跟踪用户行为并将信息保存到cookie中,如果有些东西看起来可疑,则会向用户提供验证码。谷歌验证码如何在几个网站上运作。