Question

我一直在研究实现这一目标的好方法。我正在开发一个简单的网站爬虫，它将绕过一组特定的网站并将所有mp3链接爬到数据库中。我不想下载文件，只需抓取链接，索引它们并能够搜索它们。到目前为止，我已经成功获得了一些网站，但是对于一些网站来说，他们使用网址重定向和混淆了爬虫的东西..

任何想法？ beemp3.com如何索引所有这些链接？

感谢

Answer 1

您可以对链接执行http标头请求并检查其mime类型。如果是audio / mpeg，你可能正在获取一个mp3链接。

Answer 2

Here's类似于你的要求（大学的朋友一直使用它）。输入 QUERY_TEXT 后，此搜索会生成以下格式的Google查询：

QUERY_TEXT intitle:
"index.of" "parent directory" "size" "last modified" "description"
[snd] (mp4|mp3|avi)
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index)
-gallery
-intitle:"last modified"
-intitle:(intitle|mp3)

Answer 3

您更喜欢哪种编程语言？

<强>的Python：
有一个非常有前途的爬行框架叫做Scrapy（用python编写），它的构建类似于Django Framework。我自己还没有使用它，但我一直在寻找爬虫，而Scrapy是最好的候选者。这是IIRC没有开箱即用，只需要少量编码，但它是根据DRY原则设计的，并且非常可定制（有点像Django在安装后没有给你一个交钥匙网站）。

URL redirection有许多不同的方法，您的抓取工具需要能够遵循这些重定向，或者在最坏的情况下能够忽略它们，因此它不会出现故障。

将重定向到的网站也必须位于您的网站白名单中。

您是否可以编辑您的问题并在抓取工具上添加详细信息;它是从头开始编写的，它是一些交钥匙解决方案等吗？

MP3链接Crawler

3 个答案: