应用错误收集

时间：2010-12-15 07:07:21

标签： php mysql indexing mp3 web-crawler

我实际上要做的就是弄清楚BEEMP3.COM是如何工作的。

由于网站的速度，我怀疑他们当场刮取了其他网站/来源。他们可能使用某种数据库（PostgreSQL或MySQL）来存储“结果”，然后只查询搜索词。

我的问题是你们怎么认为他们爬行/蜘蛛或实际获得mp3文件/内容？他们必须有一些算法来蜘蛛网或使用google的mp3技巧索引来查找带有原始mp3文件的主机。

赞赏任何评论，提示或想法：）

答案 0 :(得分：0)

QueryPath是构建网络蜘蛛的绝佳工具。

我猜他们使用组合方法找到MP3 - 他们有一个“种子网站”列表（从谷歌，Usenet或手动插入），他们用作搜索的起点，然后设置蜘蛛运行它们。

您需要编写一个脚本：

您还需要定期重新检查您的MP3链接以清除任何不良链接。

答案 1 :(得分：0)

或者，您可以抓取像beemp3.com这样的MP3蜘蛛并提取所有直接下载链接并将其保存到您的数据库中。你只需要两个文件 I.简单的html Dom。 II。可以将提取的链接提取到数据库的应用程序。

中做了什么

如果有任何矛盾，你会继续询问。