我实际上要做的就是弄清楚BEEMP3.COM是如何工作的。
由于网站的速度,我怀疑他们当场刮取了其他网站/来源。 他们可能使用某种数据库(PostgreSQL或MySQL)来存储“结果”,然后只查询搜索词。
我的问题是你们怎么认为他们爬行/蜘蛛或实际获得mp3文件/内容? 他们必须有一些算法来蜘蛛网或使用google的mp3技巧索引来查找带有原始mp3文件的主机。
赞赏任何评论,提示或想法:)
答案 0 :(得分:0)
QueryPath是构建网络蜘蛛的绝佳工具。
我猜他们使用组合方法找到MP3 - 他们有一个“种子网站”列表(从谷歌,Usenet或手动插入),他们用作搜索的起点,然后设置蜘蛛运行它们。
您需要编写一个脚本:
您还需要定期重新检查您的MP3链接以清除任何不良链接。
答案 1 :(得分:0)
或者,您可以抓取像beemp3.com这样的MP3蜘蛛并提取所有直接下载链接并将其保存到您的数据库中。你只需要两个文件 I.简单的html Dom。 II。可以将提取的链接提取到数据库的应用程序。
检查我在http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php
中做了什么如果有任何矛盾,你会继续询问。