我多久能用PHP抓取一个网站?

时间:2012-01-03 00:38:27

标签: php web-crawler bots

我想构建一个Android应用程序,该应用程序将使用php抓取网站,并从我正在抓取的网站内的小跨度标记中获取信息。

我想知道这是否合法(我认为这是因为Google不断抓取网站)。

我还需要知道我能够多久做一次,或者即使有这样的规则。

谢谢!

2 个答案:

答案 0 :(得分:3)

好吧,我认为你进入网络抓取的领域比网络抓取更多。这两者几乎完全相同,但抓取“更多地关注网络上非结构化数据的转换,通常是HTML格式,转换为可以在中央本地数据库或电子表格中存储和分析的结构化数据。”通常,有很多法律问题围绕着刮取不属于您的网站。

维基百科有pretty decent section on the legal issues involving scraping

换句话说,完全取决于您要抓取/抓取的网站所有者。

答案 1 :(得分:0)

从根本上说,你有两个问题:

  • 如何检索数据?
  • 你应该吗?

前者相对简单 - 后者要复杂得多。

从纯粹的技术性POV来看,如果你每天都要抓一个网站,没有人会注意到,除非它是一个非常低容量的网站(并且他们不太可能关心)。

请记住,您抓的次数越多,您消耗的服务器资源就越多。

良好的网络礼仪说你应该尊重网站所有者的意愿。许多网站将提供备用批准的方式来获取数据,通常是通过网络服务。

您应该尝试遵守任何robots.txt文件(仅限Google)中指定的限制。这也是很好的行为。

真的,这取决于你在礼貌与需要之间划清界限。

需要考虑的一件事:许多信息来源都乐于重新使用他们的数据,只要他们获得信用。 (尽管,公平地说,其他人完全反对,无论如何。)

如果我在你的位置,我首先尝试联系相关网站,并以礼貌的方式请求许可 - 他们能做的最糟糕的事就是拒绝。

下一个问题是由完全提取数据的人提出的。如果从中央服务器中搜索,则相同的IP地址将执行查询。如果应用程序本身提取数据,那么它将是多个IP地址,并且很可能在"静态"除非应用程序表现得很愚蠢。