有关从互联网上捕获/抓取/收集音频内容的最佳方式的建议/提示

时间:2010-12-15 07:07:21

标签: php mysql indexing mp3 web-crawler

我实际上要做的就是弄清楚BEEMP3.COM是如何工作的。

由于网站的速度,我怀疑他们当场刮取了其他网站/来源。 他们可能使用某种数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索词。

我的问题是你们怎么认为他们爬行/蜘蛛或实际获得mp3文件/内容? 他们必须有一些算法来蜘蛛网或使用google的mp3技巧索引来查找带有原始mp3文件的主机。

赞赏任何评论,提示或想法:)

2 个答案:

答案 0 :(得分:0)

QueryPath是构建网络蜘蛛的绝佳工具。

我猜他们使用组合方法找到MP3 - 他们有一个“种子网站”列表(从谷歌,Usenet或手动插入),他们用作搜索的起点,然后设置蜘蛛运行它们。

您需要编写一个脚本:

  • 以网页为起点
  • 获取网页数据(使用cURL)
  • 使用正则表达式提取(a)任何链接(b)任何指向mp3文件的链接
  • 将任何MP3链接放入数据库
  • 将指向其他网页的链接列表添加到队列中,以便通过上述方法进行处理

您还需要定期重新检查您的MP3链接以清除任何不良链接。

答案 1 :(得分:0)

或者,您可以抓取像beemp3.com这样的MP3蜘蛛并提取所有直接下载链接并将其保存到您的数据库中。你只需要两个文件 I.简单的html Dom。 II。可以将提取的链接提取到数据库的应用程序。

检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php

中做了什么

如果有任何矛盾,你会继续询问。