我有一个关于它的大量数据的Drupal网站。但是,由于Drupal类和ID非常一致,人们可以很容易地抓住网站。
我不确定是否"刮擦"是官方用语,但我指的是人们编写一个脚本的过程,该脚本可以抓取"一个网站并解析它的各个部分,以便提取数据并将其存储在自己的数据库中。
答案 0 :(得分:2)
web scraping anti-scrape
进行谷歌搜索。在那里,您将找到一些用于对抗Web废料的工具。 答案 1 :(得分:1)
我不确定,但我认为抓取所有内容都公开的网站非常容易,无论ID是否是连续的。你应该考虑到,如果一个人可以阅读你的Drupal网站,那么脚本也可以。
如果您不希望其他人将您的内容编入索引,则视您的网站性质而定,您应该考虑设置注册用户访问权限。否则,我认为你正在为失败的事业而战。