python - python中的web爬虫数据库？

时间：2010-01-27 00:16:35

标签： python database web-crawler

我正在使用python编写一个网络爬虫来从nytimes.com这样的新闻网站中提取新闻文章。我想知道什么是一个好的数据库用作这个项目的后端？

提前致谢！

答案 0 :(得分：6)

这可能是一个使用CouchDB，MongoDB或SimpleDB等文档数据库的好项目。

MongoDB有一个托管解决方案：http://mongohq.com。还有a binding for Python (Pymongo)。

如果您在Amazon Web Services上托管这个，那么SimpleDB是一个很好的选择

CouchDB是Apache Foundation的开源软件包。

答案 1 :(得分：3)

就个人而言，我喜欢PostGreSQL - 但是其他免费的数据库，例如MySql（或者，如果你有相当少量的数据 - 最多几GB - 甚至是{{3}也很好。

答案 2 :(得分：1)

我认为数据库本身可能是像这样的网络爬虫的一个简单方面。

如果期望高负载读取或写入数据库（例如，如果您打算同时运行多个爬虫）那么您将需要引导MySql的方向，否则Sqlite之类的东西可能会这样做你很好。

答案 3 :(得分：0)

您可以查看Firebird

Firebird python driver由核心团队开发