如何将物理文档转换为Web应用程序可以读取的语义文档

时间:2013-12-03 06:29:07

标签: xml rdf semantics semantic-markup

对于非常模糊的标题感到抱歉,但我在这方面有点新鲜。让我试着解释一下我的问题和好奇心。

我有5个不同的页面,每个页面包含50个问题。总共我有250个问题,如果我仔细观察,我可以看到其中一些也在重复,页面的每个问题都可以链接到它的来源和/或表征如

1.什么是自然选择?

  • 主题 - >生物学
  • 章节 - >进化
  • 子章节 - >自然选择
  • 点 - > 4

和其他一些。

那么如何将这些问题添加到某种形式中我可以添加这些标签然后运行程序来查找最重复的问题,或者章节在这5篇论文中提供更多的点或某些问题的发生趋势。

xml? RDF?语义网?

请指导我正确的方向我应该学习或做些什么来将这些问题从实体论文转换为足够语义的内容,以供网络应用程序阅读。

请问你是否对这个问题感到困惑。

1 个答案:

答案 0 :(得分:1)

如果要使用其他程序处理数据,XML或JSON将是很好的格式。大多数语言都有很好的库来解析这两种格式。

有两种方法可以组织任何格式的数据:分层和标记。 以下是一些如何代表它的例子:

XML层次结构:

<document>
  <subject name="biology">
    <chapter name="evolution">
      <subChapter name="Natural Selection">
        <question points="4">Some question</question>
      </subChapter>
    </chapter>
  </subject>
</document>

XML标记:

<document>
  <question>
    <content>Some question</content>
    <subject>Biology</subject>
    <chapter>Evolution</chapter>
    <subChapter>Natural Selection</subChapter>
    <points>4</points>
 </question>
</document>

第二个将更容易解析,但包含更多冗余信息。您还可以通过许多其他方式组织数据。

JSON层次结构:

{
  "Biology": {
    "Evolution": {
      "Natural Selection": [
        {"question": "Some Question", "points":4},
        {"question": "Some other Question", "points":2}
       ]
     }
   }
}

JSON标记:

[{"question": "Some Question",
  "subject": "Biology",
  "chapter": "Evolution",
  "subChapter": "Natural Selection",
  "points":4
}]