我最近编写了一个java爬虫程序,它可以在网站中找到视频链接并保存在文本文件中。但是存在严重的问题。
为了防止网页抓取,他们使用一些方法来更改服务器中视频的路径。我知道他们不会动态改变视频链接的实际路径。这太昂贵了。但是,我可以想出他们用一些像session-id这样的密钥来加密文件路径。
现在,我从Web服务器收到HTTP 410 - Gone错误。有什么想法他们如何防止爬行和解决方案来克服这些家伙的聪明方法?
答案 0 :(得分:5)
人们可以采用多种方法来保护他们的资源免遭盗窃/抓取:
如果他们对他们发布的信息(或信息不属于公共领域)有版权主张,如果他们试图阻止此类访问,则暗示;那么你所做的事情在世界上大多数地区都可能是非法的。