我正在使用python编写一个网络爬虫来从nytimes.com这样的新闻网站中提取新闻文章。我想知道什么是一个好的数据库用作这个项目的后端?
提前致谢!
答案 0 :(得分:6)
这可能是一个使用CouchDB,MongoDB或SimpleDB等文档数据库的好项目。
MongoDB有一个托管解决方案:http://mongohq.com。还有a binding for Python (Pymongo)。
如果您在Amazon Web Services上托管这个,那么SimpleDB是一个很好的选择
CouchDB是Apache Foundation的开源软件包。
答案 1 :(得分:3)
就个人而言,我喜欢PostGreSQL - 但是其他免费的数据库,例如MySql(或者,如果你有相当少量的数据 - 最多几GB - 甚至是{{3}也很好。
答案 2 :(得分:1)
我认为数据库本身可能是像这样的网络爬虫的一个简单方面。
如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫)那么您将需要引导MySql的方向,否则Sqlite之类的东西可能会这样做你很好。
答案 3 :(得分:0)
您可以查看Firebird
Firebird python driver由核心团队开发