带有MySQL数据库的Python Web爬虫

时间:2011-08-10 20:18:09

标签: python mysql sql web-crawler web-scraping

我想创建或查找用Python编写的开源Web爬虫(spider / bot)。它必须找到并关注链接,收集元标记和元描述,网页标题和网页的网址,并将所有数据放入MySQL数据库。

有没有人知道任何可以帮助我的开源脚本?此外,如果有人能给我一些关于我应该做些什么的指示,那么他们非常欢迎。

3 个答案:

答案 0 :(得分:4)

我建议您使用Scrapy,这是一个基于Twistedlxml的强大抓取框架。它特别适合您要执行的任务类型,它具有遵循链接的基于正则表达式的规则,并允许您使用正则表达式或XPath表达式从html中提取数据。它还提供了他们所谓的“管道”来将数据转储到你想要的任何东西。

Scrapy不提供内置的MySQL管道,但有人编写了一个here,您可以从中自行创建。{/ p>

答案 1 :(得分:4)

是的,我知道,

文库

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

开源网络抓取工具

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

PS我不知道他们是否使用mysql,因为通常python使用sqlit或postgre sql所以如果你想要你可以使用我给你的库并导入python-mysql模块并执行它:D

http://sourceforge.net/projects/mysql-python/

答案 2 :(得分:3)

Scrappy是一个网络抓取和抓取框架,您可以扩展该框架以将所选数据插入数据库。

它就像是Django框架的反转。

相关问题