Biodomain中的数据集,如word2vec和Glove

时间:2016-06-21 17:28:15

标签: nlp bioinformatics text-mining biopython

我正在培训关于生物医学文本的word2vec。为了执行单词相似性和单词类比测试,我希望生成具有相同关系的生物医学术语对(可以是任意),就像我们在word2vec中有一个全面的城市状态数据列表一样。我尝试在网上搜索,但由于我是域名新手,我发现它令人困惑。

那么,我在哪里可以找到与药物基因或蛋白质作用相关的清单等?或者我如何挖掘这些数据。请建议公开提供此类数据集。另外,请建议我还可以查询的任何其他有趣的关系。

另一种方法是使用可用的本体,因为它们包括概念之间的关系,例如has-part,is-a-way-of-do,is-a-cause-of,is-a-symptom-of等。我可以使用本体来提取这些对吗?如果是,那么本体论是什么?

是否有可用于我目的的黄金标准数据集?

1 个答案:

答案 0 :(得分:1)

  

那么,我在哪里可以找到与药物基因或蛋白质作用相关的清单,   等?

看看ChEMBL,例如aspirin与其目标cyclooxygenase

相关联
  

另一种方法是使用可用的本体,因为它们包括在内   这种概念之间的关系,如有部分,是一种做法,   是一种原因,是一种症状等等。我可以使用本体来提取   这样的一对?如果是,那么本体是什么以及如何?

良好的开端是ChEBI ontology