必须在数据库和相关领域中阅读/收藏论文

时间:2011-03-21 03:55:49

标签: database database-design data-mining distributed

请推荐您认为是数据库管理,信息系统,数据挖掘等中最重要或最喜欢的论文。

以下是我认为是重要里程碑的几对:

  1. 周围有什么变化 - Michael Stonebraker,Joseph M. Hellerstein

  2. Dynamo: Amazon’s Highly Available Key-value Store - Giuseppe DeCandia, Deniz Hastorun, Madan et al

  3. Bigtable: A Distributed Storage System for Structured Data - Fay Chang, Jeffrey Dean et al.

  4. MapReduce: Simplified Data Processing on Large Clusters - Jeffrey Dean and Sanjay Ghemawat

  5. Brewer的猜想以及一致,可用,分区容忍的Web服务的可行性

  6. Parallel database systems: the future of high performance database systems - Jim Gray

  7. 分布式系统中崩溃恢复的正式模型 - Skeen,D。Stonebraker,M

2 个答案:

答案 0 :(得分:7)

  1. 首先,您必须阅读的DBMS理论论文最重要的纲要是“数据库系统4E中的读物” - Stonebraker(又名“红皮书”)

      

    本书中的每篇论文都是一篇   里程碑;失败,它不会   已经削减了这本书。 : - )

  2. Stonebraker还对DBMS架构“数据库系统架构”进行了精彩调查:数据库的基础和趋势1:2(2007)

  3. DBMS作家的书:'交易处理:概念与技巧' - Jim Gray(他的开创性工作)

  4. 这可以被视为一篇大文章:'数据库管理V2的关系模型' - Codd

  5. 对象/关系数据库的基础,第三个宣言'--- C. J. Date

  6. 面向对象数据库系统中的读物 - Zdonik

  7. 数据库系统中的并发控制和恢复 - Bernstein

答案 1 :(得分:1)

由于我是stackoverflow的新手,我不能发布两个以上的超链接!!所以带链接的版本位于http://www.reddit.com/r/compsci/comments/ghc0w/please_recommend_must_read_favorite_papers_in/c1no849

zamanbakshi推荐的书,Gray和Reuter的交易处理:概念和技术非常非常好。我带着这么多,盖子掉了 - 这是精装书。当然,它在某些主题上有些过时,但它比大多数后来的书更好阅读,例如Weikum和Vossen的交易信息系统,这是一本好书,但让我的眼睛釉结束了,我不得不承认。

如果我没记错的话,Gray和Reuter的文字并没有涵盖Mohan的重复历史恢复技术,这是必不可少的。请参阅ARIES / NT:基于嵌套事务和ARIES的预写日志记录的恢复方法:至少使用预写日志记录支持精细粒度锁定和部分回滚的事务恢复方法,但Mohan的大多数论文都值得读数。

Bernstein等人的书“数据库系统中的并发控制和恢复”已经绝版,但您可以从他的Microsoft Research页面下载它。

David Lomet和已故(或失踪)Jim Gray也有很多好的出版物。

一些重要的论文不在红皮书第二版(我的版本)中:

  • 对ANSI SQL隔离级别的批评(1995)Gray,et al。
  • 复制和解决方案的危险(1996)Gray和Helland
  • 广义隔离级别定义(2000)Adya,et al。

最近我认为值得关注的论文是Cahill,Röhm和Fekete的Serializable Isolation for Snapshot Databases(2009)。这是一种非常简单的技术,效果出奇的好。我希望它能在某些DBMS中实现。在搜索相关内容时,我偶然发现了这个有趣的阅读列表。它主要与闪存相关的东西,但也有一些感兴趣的一般性论文,包括一些最近的Stonebraker论文。

我建议跳过日期的“第三宣言”。我很失望。我认为他从未做过任何面向对象的编程。他早期的关于DBMS关系数据库的书和文章很好,如果有点重复的话。

主内存DBMS的一个很好的描述是DalíMain-Memory Storage Manager的架构。非行动的,非WAL检查点最初引起了我的注意。

以下是一些关于非一致的分布式数据管理(非常非常大的数据):

  • BASE:酸替代品(2008)Pritchett
  • 超越分布式交易的生活:Apostate的意见(2007)Helland