我想创建或查找用Python编写的开源Web爬虫(spider / bot)。它必须找到并关注链接,收集元标记和元描述,网页标题和网页的网址,并将所有数据放入MySQL数据库。
有没有人知道任何可以帮助我的开源脚本?此外,如果有人能给我一些关于我应该做些什么的指示,那么他们非常欢迎。
答案 0 :(得分:4)
我建议您使用Scrapy
,这是一个基于Twisted
和lxml
的强大抓取框架。它特别适合您要执行的任务类型,它具有遵循链接的基于正则表达式的规则,并允许您使用正则表达式或XPath表达式从html中提取数据。它还提供了他们所谓的“管道”来将数据转储到你想要的任何东西。
Scrapy不提供内置的MySQL管道,但有人编写了一个here,您可以从中自行创建。{/ p>
答案 1 :(得分:4)
文库
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
开源网络抓取工具
教程
PS我不知道他们是否使用mysql,因为通常python使用sqlit或postgre sql所以如果你想要你可以使用我给你的库并导入python-mysql模块并执行它:D答案 2 :(得分:3)
Scrappy是一个网络抓取和抓取框架,您可以扩展该框架以将所选数据插入数据库。
它就像是Django框架的反转。