我正在尝试基于文本挖掘创建知识库。我正在使用Genia Corpus通过他们的词性来标记这些单词。鉴于文中有两个术语,我如何创建一个找出其关系的模型?
例如文字:
HIF1A基因参与低氧调节。缺氧也上调BRCA1基因表达,其主要与乳腺癌相关。
我已经标记了POS。
Word Base Form Part-Of-Speech
HIF1A HIF1A NN
gene gene NN
is be VBZ
involved involve VBN
in in IN
Hypoxic Hypoxic JJ
regulation regulation NN
. . .
Hypoxia Hypoxia NN
also also RB
regulates regulate VBZ
BRCA1 BRCA1 NN
gene gene NN
which which WDT
is be VBZ
mainly mainly RB
associated associate VBN
in in IN
breast breast NN
cancer cancer NN
我正在编写一个网络界面,当查询时BRCA1和Hypoxia应该告诉他们之间存在正向调节。当查询HIF1A和缺氧时,它应该告诉我们基于这些句子有一个积极的规定。
现在我已经标记了POS,我不知道如何继续创建一个能够识别它们之间关系的模型。这只是一个例子。我想为一般生物医学术语和文本做这件事。
有人有什么建议吗?
答案 0 :(得分:2)
完全依赖POS标签的输出,你必须定义本地语法规则(模式)。
就个人而言,我建议你使用(语法)解析器来获取像regulate(Hypoxia,BRCA1)
这样的参数结构......