我们现在想为BiblioVT系统设计合适的模式。 DBLP 数据集包含大约140万份出版物的信息 计算机科学文献。以下是您的E / R图表的完整描述 应该建模。 •每个发布都有一个名为dblp_key的唯一字符串,用于标识它。它还有一个标题,一年的出版物,以及一个或多个作者。
•某些类型的出版物没有作者:他们有编辑(见下文)。
•作者在出版物中出现的顺序很重要,必须如此 记录。在每个出版物中,每位作者最多出现一次。作者的排名在出版物中是唯一的。在出版物中,等级必须从0开始并且是连续的。对于某些出版物,作者尚未被记录。
•出版物也可能有URL和数字对象标识符(DOI)。
•每个出版物都可以引用一个或多个出版物(这些出版物出现在典型出版物的末尾)。此外,每个出版物可以与一个或多个主题相关联。主题本身是分层排列的,例如,参见计算分类系统。主题可以是多个“父”主题的子主题,并且其本身具有一个或多个专门主题作为“子”。 •每份出版物属于以下类别之一:
o文章:此类型对应于期刊文章。该出版物将具有关联的期刊名称,卷和指定问题的编号 期刊,页码和期刊的出版商。
书:正如名称所示,这种类型的出版物是一本书。它还有一个 出版商,系列和ISBN号。本书有两种类型“作者书” 和“编辑书”。作者书是一本有一个或多个的常规书 作者。 “编辑书”的内容由一个或多个收集 编辑器。o incollection:此类型表示集合中包含的出版物作为章节。每个收藏品都有自己的页码和作者。 集合中的一章具有对其集合的交叉引用 发表于。
o inproceedings:此类型表示在科学会议记录中发表的论文。它与类型的出版物非常相似 “incollection”。 “inproceedings”类型的出版物有交叉引用 它出版的会议记录。 o集合:集合的一个例子是包含不同的集合 由不同作者撰写的章节(请注意,每本书都不是 必然是一个集合)。集合中的每一章都有类型 incollection。整个系列本身被认为是独立的 出版物,有自己的标题,编辑列表和出版商。一个人不可能成为集合的作者,即集合只有编辑。在一个集合中,编辑器最多出现一次。在一个系列中,编辑队伍也是独一无二的 从0开始连续编号。
诉讼程序:会议“诉讼程序”本身就是一个单独的出版物 拥有自己的头衔,编辑和出版商。编辑和他们的排名 “进行”具有与“集合”相同的功能和约束。o mastersthesis:本出版物是硕士论文,有特定的作者,出版商和年份。发布者拥有有关部门的信息 和/或大学。
o phdthesis:本出版物是博士论文,具有特定的作者,出版商和年份。发布者拥有有关部门和/或的信息 大学。