对于cTAKES来说是非常新的知识,并浏览docs,对UMLS and SNOMEDCT“词汇”到底是什么感到好奇。用户安装文档似乎并没有真正说明问题,只是简单地申请UMLS许可和UMLS Metathesaurus的语言around并没有透露太多有关所访问数据的结构的信息。例如。它是一些在线API服务吗?是cTAKES下载随附的某些文件,只能使用有效的UMLS密码(通过在线DB进行检查)才能将其解锁?
答案 0 :(得分:0)
有关UMLS Metathesaurus和SNOMEDCT的信息,请参见此处(https://www.nlm.nih.gov/research/umls/knowledge_sources/metathesaurus/index.html和此处(https://www.ncbi.nlm.nih.gov/books/NBK9676/,特别是https://www.ncbi.nlm.nih.gov/books/NBK9684/):
Metathesaurus是一个非常庞大的,多功能的,多语言的[relational?]词汇数据库,其中包含有关生物医学和健康相关概念,其各种名称以及它们之间的关系的信息。设计供系统开发人员使用...
... Metathesaurus包含来自100多种术语,分类和叙词表的概念,概念名称和其他属性,
虽然我不确定cTAKES如何精确地实现其对UMLS Metathesaurus的使用(任何人都可以请教),但我假设它正在基于您需要添加到UMLS凭据的关系数据库访问某些API cTAKES下载随附的示例脚本(请参见https://cwiki.apache.org/confluence/display/CTAKES/cTAKES+4.0+User+Install+Guide#cTAKES4.0UserInstallGuide-(Recommended)AddUMLSaccessrights)。
...您可以从两种关系格式中选择:2004年引入的Rich Release Format(RRF)和Original Release Format(ORF)。
(我认为)这是用来为用于处理文本in cTAKES的UIMA分析引擎提供动力的
UIMA 是一种体系结构,其中构成称为 Analysis Engines(AE)的基本构建块,以便分析文档注释者如何表示和共享他们的结果是UIMA体系结构的重要组成部分。为了实现组合和重用,UIMA正是出于这些目的定义了通用分析结构(CAS)。 CAS是基于对象的容器,用于管理和存储具有属性和值https://www.ibm.com/developerworks/data/downloads/uima/#How-does-it-work
的类型化对象。