python - 带有MySQL数据库的Python Web爬虫

时间：2011-08-10 20:18:09

标签： python mysql sql web-crawler web-scraping

我想创建或查找用Python编写的开源Web爬虫（spider / bot）。它必须找到并关注链接，收集元标记和元描述，网页标题和网页的网址，并将所有数据放入MySQL数据库。

有没有人知道任何可以帮助我的开源脚本？此外，如果有人能给我一些关于我应该做些什么的指示，那么他们非常欢迎。

答案 0 :(得分：4)

我建议您使用Scrapy，这是一个基于Twisted和lxml的强大抓取框架。它特别适合您要执行的任务类型，它具有遵循链接的基于正则表达式的规则，并允许您使用正则表达式或XPath表达式从html中提取数据。它还提供了他们所谓的“管道”来将数据转储到你想要的任何东西。

Scrapy不提供内置的MySQL管道，但有人编写了一个here，您可以从中自行创建。{/ p>

答案 1 :(得分：4)

是的，我知道，

文库

开源网络抓取工具

教程

PS我不知道他们是否使用mysql，因为通常python使用sqlit或postgre sql所以如果你想要你可以使用我给你的库并导入python-mysql模块并执行它：D

答案 2 :(得分：3)

Scrappy是一个网络抓取和抓取框架，您可以扩展该框架以将所选数据插入数据库。

它就像是Django框架的反转。