我一直在研究实现这一目标的好方法。我正在开发一个简单的网站爬虫,它将绕过一组特定的网站并将所有mp3链接爬到数据库中。 我不想下载文件,只需抓取链接,索引它们并能够搜索它们。到目前为止,我已经成功获得了一些网站,但是对于一些网站来说,他们使用网址重定向和混淆了爬虫的东西..
任何想法? beemp3.com如何索引所有这些链接?
感谢
答案 0 :(得分:1)
您可以对链接执行http标头请求并检查其mime类型。如果是audio / mpeg,你可能正在获取一个mp3链接。
答案 1 :(得分:0)
Here's类似于你的要求(大学的朋友一直使用它)。输入 QUERY_TEXT 后,此搜索会生成以下格式的Google查询:
QUERY_TEXT intitle:
"index.of" "parent directory" "size" "last modified" "description"
[snd] (mp4|mp3|avi)
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index)
-gallery
-intitle:"last modified"
-intitle:(intitle|mp3)
答案 2 :(得分:0)
您更喜欢哪种编程语言?
<强>的Python:强>
有一个非常有前途的爬行框架叫做Scrapy(用python编写),它的构建类似于Django Framework。我自己还没有使用它,但我一直在寻找爬虫,而Scrapy是最好的候选者。这是IIRC没有开箱即用,只需要少量编码,但它是根据DRY原则设计的,并且非常可定制(有点像Django在安装后没有给你一个交钥匙网站)。
URL redirection有许多不同的方法,您的抓取工具需要能够遵循这些重定向,或者在最坏的情况下能够忽略它们,因此它不会出现故障。
将重定向到的网站也必须位于您的网站白名单中。
您是否可以编辑您的问题并在抓取工具上添加详细信息;它是从头开始编写的,它是一些交钥匙解决方案等吗?