关于解析的问题

时间:2010-08-11 14:11:13

标签: php parsing

我知道我们可以从任何网站获取信息(使用php)并创建自己的信息。

我说的是从youtube(大小,持续时间)解析一些其他内容,如电影信息(日期,预算,人员等)或视频文件属性。

我很高兴能够从大型网站和大量信息中抓取进程

似乎有几个问题:

  1. 脚本执行时间。似乎我们可以制作一个旋转脚本来抓取所有页面从一个到另一个并将内容推送到我们的mysql基础,但是在大量页面上执行时间将超过普通主机提供的(通常接近30秒),所以脚本将在某个时刻消亡。
  2. 内存量。在解析大量页面时,脚本会占用大量内存。
  3. Antiddos ?在所在的站点上(来自一个IP地址的大量查询)。
  4. 这个问题的主要思想是如何绕过所有这些宝石并制作旋转脚本(可以整天工作)而不会出错。

    在处理过程中是否还有其他一些坏消息?

    您的想法?

3 个答案:

答案 0 :(得分:2)

我会回答这个问题,假设您正在做的事情是合法的,并且会为现有的数据增加价值。如果是这种情况,您可以联系相关网站并与他们交谈以确认您的屏幕抓取不会被阻止作为DoS攻击。你可以给他们你的IP地址等,一切都会好的。

有很多方法可以确保您的流程不会超时/使用太多信息。这只取决于您的系统设计。如果您的网站内容不是原创内容,请至少尝试使用自己的解决方案:)但是如果您在实施过程中遇到特定问题,我相信您可以获得针对重点问题的答案。

编辑以澄清

我对你问题的回答是

1)检查您要刮去的网站。如果他们没有问题,他们将不会阻止您的IP地址 - 您可以安排一种方法来确保它们不会发生。使用静态IP地址。或者,如果您使用的IP地址可能会更改,则同意特定的用户代理字符串。

2)完成后(1)然后开始开发解决方案。执行时间等不应该是一个问题,因此如果您在编写代码时遇到特定的问题,那么请回到堆栈溢出问题,重点关注这一问题。

要明确的是,如果您不能或不会联系您想要抓的网站,请立即告诉我们。

答案 1 :(得分:0)

我说的是从youtube(大小,持续时间)解析一些其他内容,如电影信息(日期,预算,人员等)或视频文件属性。

imdb和youtube都有API来从他们的网站获取数据,无需刮掉。

答案 2 :(得分:0)

正如@paulHadfield所说,在您做任何事情之前,您需要询问您想要抓住的网站的所有者,这样您就不会被误认为是DoS攻击。

你到底想要在mysql中存储什么?