我正在寻找我需要从科学论文中提取的特定信息。这些信息主要位于论文的“评估”或“实施”部分。我需要在内容中提取任何函数名称,参数,文件名,应用程序名称,应用程序版本。 是否有任何NLP技术/机器学习算法可以从科学论文中提取此类信息?
答案 0 :(得分:0)
我不知道有任何现成的应用程序可以执行此特定任务(尽管这并不意味着没有一个,并且可能有商业解决方案可以执行此任务)。但是有些开放源代码选项可能会让您做一些工作(注释和/或规则编写):
或者,您可以在NLTK或spaCy(如果使用Python进行编码)或Stanford CoreNLP(Java)之类的库之上构建自己的解决方案。听起来您需要首先标识文档部分,然后在其中搜索模式。无论您采用机器学习还是基于规则的方法,这都可能需要花费大量的工作。如果您有一个预定义的项目列表,这将使您的生活更加轻松!