存储从信息提取中获取的数据

时间:2015-02-04 11:09:02

标签: nlp information-extraction

我有一些java的经验,而且我是学生做我的最后一年项目。

我需要在自然语言处理项目中工作,我目前正在尝试使用stanford-nlp库(但我没有锁定它,我可以更改我的工具)所以答案可以适用于任何适用于我的问题的工具


我计划在信息提取IE上工作,并且已经看到一些页面/ pdf解释了它如何与各种NLP技术一起工作。数据将使用NLP处理,我需要对已处理的数据执行信息检索IR

我现在的问题是:我应该使用什么数据结构或存储介质来存储我使用NLP技术检索的数据

  • 数据存储必须具有支持查询的能力
  • XML,JSON看起来不是理想的候选者。 (我可能是错的):如果他们可以,那么一些帮助/指导就可以提供最佳方法。
  • 我目前的观点是将解析树转换/存储为可以直接读取以供查询的数据格式。(解析树:句子或字符串的解析结构的图解表示)

需要存储数据类型的示例,文本“我的项目基于NLP”。 Dependency将如下所示

root(ROOT-0,based-4)
poss(project-2,My-1)
nsubjpass(基于-4,项目-2)
auxpass(基于-4,是-3)
prep(based-4,on-5)
pobj(on-5,NLP-6)

1 个答案:

答案 0 :(得分:1)

您是否已提取信息或是否正在尝试存储解析树?如果是前者,这仍然是NLP的一个悬而未决的问题。例如,请参阅Jurafsky和Martin的书,该书讨论了许多方法。

基本上,在我们知道您要存储的内容之前,我们无法回答。如果它是超级简单的信息,您可能可以使用简单的关系数据库。