如何阻止Drupal网站上的抓取?

时间:2015-03-23 16:29:15

标签: drupal-7 web-scraping

我有一个关于它的大量数据的Drupal网站。但是,由于Drupal类和ID非常一致,人们可以很容易地抓住网站。

  1. 有没有办法去争夺"使用PHP Simple HTML Dom Parser之类的东西来刮取网站更难的代码?
  2. 是否还有其他技术可以让网站更难一点?
  3. 我在为失败的事业而战吗?
  4. 我不确定是否"刮擦"是官方用语,但我指的是人们编写一个脚本的过程,该脚本可以抓取"一个网站并解析它的各个部分,以便提取数据并将其存储在自己的数据库中。

2 个答案:

答案 0 :(得分:2)

  1. 首先,我建议您通过web scraping anti-scrape进行谷歌搜索。在那里,您将找到一些用于对抗Web废料的工具。
  2. 至于Drupal应该有一些防刮插件可用(google over)。
  3. 你的categorized layout of anti-scrape techniques回答可能很有趣。它适用于技术用户和非技术用户。

答案 1 :(得分:1)

我不确定,但我认为抓取所有内容都公开的网站非常容易,无论ID是否是连续的。你应该考虑到,如果一个人可以阅读你的Drupal网站,那么脚本也可以。

如果您不希望其他人将您的内容编入索引,则视您的网站性质而定,您应该考虑设置注册用户访问权限。否则,我认为你正在为失败的事业而战。

相关问题