python中的web爬虫数据库?

时间:2010-01-27 00:16:35

标签: python database web-crawler

我正在使用python编写一个网络爬虫来从nytimes.com这样的新闻网站中提取新闻文章。我想知道什么是一个好的数据库用作这个项目的后端?

提前致谢!

4 个答案:

答案 0 :(得分:6)

这可能是一个使用CouchDB,MongoDB或SimpleDB等文档数据库的好项目。

MongoDB有一个托管解决方案:http://mongohq.com。还有a binding for Python (Pymongo)

如果您在Amazon Web Services上托管这个,那么SimpleDB是一个很好的选择

CouchDB是Apache Foundation的开源软件包。

答案 1 :(得分:3)

就个人而言,我喜欢PostGreSQL - 但是其他免费的数据库,例如MySql(或者,如果你有相当少量的数据 - 最多几GB - 甚至是{{3}也很好。

答案 2 :(得分:1)

我认为数据库本身可能是像这样的网络爬虫的一个简单方面。

如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫)那么您将需要引导MySql的方向,否则Sqlite之类的东西可能会这样做你很好。

答案 3 :(得分:0)

您可以查看Firebird

Firebird python driver由核心团队开发

相关问题