Question

我正在尝试基于文本挖掘创建知识库。我正在使用Genia Corpus通过他们的词性来标记这些单词。鉴于文中有两个术语，我如何创建一个找出其关系的模型？

例如文字：

HIF1A基因参与低氧调节。缺氧也上调BRCA1基因表达，其主要与乳腺癌相关。

我已经标记了POS。

Word     Base Form  Part-Of-Speech   
HIF1A    HIF1A          NN  
gene     gene           NN  
is           be         VBZ 
involved     involve    VBN 
in           in         IN  
Hypoxic  Hypoxic    JJ  
regulation   regulation NN  
.            .          .   
Hypoxia  Hypoxia        NN  
also     also           RB  
regulates    regulate   VBZ 
BRCA1    BRCA1          NN  
gene     gene           NN  
which    which          WDT 
is           be         VBZ 
mainly   mainly         RB  
associated   associate  VBN 
in           in         IN  
breast   breast         NN  
cancer   cancer         NN

我正在编写一个网络界面，当查询时BRCA1和Hypoxia应该告诉他们之间存在正向调节。当查询HIF1A和缺氧时，它应该告诉我们基于这些句子有一个积极的规定。

现在我已经标记了POS，我不知道如何继续创建一个能够识别它们之间关系的模型。这只是一个例子。我想为一般生物医学术语和文本做这件事。

有人有什么建议吗？

Answer 1

完全依赖POS标签的输出，你必须定义本地语法规则（模式）。

就个人而言，我建议你使用（语法）解析器来获取像regulate(Hypoxia,BRCA1)这样的参数结构......

NLP用POS标签创建模型

1 个答案: