从科学论文中提取特定信息

时间:2018-10-23 17:42:16

标签: machine-learning nlp information-extraction

我正在寻找我需要从科学论文中提取的特定信息。这些信息主要位于论文的“评估”或“实施”部分。我需要在内容中提取任何函数名称,参数,文件名,应用程序名称,应用程序版本。 是否有任何NLP技术/机器学习算法可以从科学论文中提取此类信息?

1 个答案:

答案 0 :(得分:0)

我不知道有任何现成的应用程序可以执行此特定任务(尽管这并不意味着没有一个,并且可能有商业解决方案可以执行此任务)。但是有些开放源代码选项可能会让您做一些工作(注释和/或规则编写):

  • GATE(具有“用户友好”图形界面,因此,如果您不想的话,则无需进行编码)
  • Reverb
  • Stanford OpenIE
  • Canary(从外观上看,它可用于临床NLP,但可能更普遍)
  • GROBID(这似乎可以将文章分为几部分)

或者,您可以在NLTKspaCy(如果使用Python进行编码)或Stanford CoreNLP(Java)之类的库之上构建自己的解决方案。听起来您需要首先标识文档部分,然后在其中搜索模式。无论您采用机器学习还是基于规则的方法,这都可能需要花费大量的工作。如果您有一个预定义的项目列表,这将使您的生活更加轻松!