NLP:从教科书中为特定术语制定定义摘要

时间:2017-06-26 15:37:40

标签: nlp summarization

我希望能够从教科书中为特定术语策划定义摘要。

例如,从生物学教科书中,我希望能够形成“线粒体”这个词的简明摘要。我试过这一点,首先通过教科书解析包含“线粒体”一词的所有句子,并通过TextRank和LexRank等汇总算法提供这些句子,但这些算法无法很好地确定“定义”句子。

根据定义摘要,就定义而言,我指的是有用的句子。例如,句子“线粒体是细胞的强者”将是一个定义句,而句子“真菌细胞也包含线粒体和内部膜的复杂系统,包括内质网和高尔基体”并不真正相关线粒体的定义。

非常感谢任何帮助或潜在客户

2 个答案:

答案 0 :(得分:0)

这是一个非常开放的问题。我可以试着指出我将如何处理这个......

一种方法是对文本使用某种矢量表示(word2vec 想到了sent2vec。

然后通过对矢量格式的句子的平均值进行编码并检查这个和你所寻找的术语的余弦相似性,你可能会得到一些接近你所寻找的定义句子的东西。

甚至测试你从摘要算法和术语中得到的平均句子的余弦相似性可能会让你接近判断你有多接近

答案 1 :(得分:0)

实现这一点并不是一种直接的方式,但你确实有一些选择:

  1. 只需使用正则表达式"线粒体是"。这是最愚蠢的事情,但鉴于教科书可能会令人满意。它的简单测试应该很简单,最糟糕的是提供了比较替代品的基线。

  2. 使用单词"线粒体"在每个句子上运行解析器(例如:Stanford Parser),并提取线粒体为主题的句子。这将消除你给出的负面例子。你必须调整它,可能限制主要动词,占协调员等等。

  3. 使用信息提取(例如:Stanford OpenIE)获取有关线粒体的事实列表(如is-in(mitochondria, cell))并对此做一些事情。