我正在为医学文本开发一个基于本体的注释工具,我在寻找合适的数据集方面遇到了一些麻烦。
我正在使用疾病本体论,所以我需要一个专注于疾病及其症状/治疗的医疗数据集。
数据集应该最好是自然语言文本(文章,研究等),但基于词典和基于列表的数据集也可能有所帮助。
感谢您的帮助!
答案 0 :(得分:0)
你的意思是说你正在寻找一个生物医学文本语料库来注释吗?即。确定关键术语。您可以尝试发布的摘要 - 它们位于Linked Open Data cloud,您可以尝试维基百科的消费者级别的东西,甚至开放获取期刊的NIH网站目录也会有大量开放的学术内容进行注释。
如果您还没有 - 请查看UMLS(以及metamap之类的其他项目) - 它对于任何类型的生物医学NLP都非常宝贵。如果你有兴趣,我想我有一份UMLS和疾病本体之间的映射文件。 (RDF UMLS,http://linkedlifedata.com)
答案 1 :(得分:0)
我有偏见(因为我是联合创始人),仍然在tagtog.net上,您会发现一堆biomedical corpora。例如,IDP4 +主体注释提到的基因突变及其作用(也包括某些疾病),而V300主体注释引起疾病的病毒。