nlp - Biodomain中的数据集，如word2vec和Glove

时间：2016-06-21 17:28:15

标签： nlp bioinformatics text-mining biopython

我正在培训关于生物医学文本的word2vec。为了执行单词相似性和单词类比测试，我希望生成具有相同关系的生物医学术语对（可以是任意），就像我们在word2vec中有一个全面的城市状态数据列表一样。我尝试在网上搜索，但由于我是域名新手，我发现它令人困惑。

那么，我在哪里可以找到与药物基因或蛋白质作用相关的清单等？或者我如何挖掘这些数据。请建议公开提供此类数据集。另外，请建议我还可以查询的任何其他有趣的关系。

另一种方法是使用可用的本体，因为它们包括概念之间的关系，例如has-part，is-a-way-of-do，is-a-cause-of，is-a-symptom-of等。我可以使用本体来提取这些对吗？如果是，那么本体论是什么？

是否有可用于我目的的黄金标准数据集？

答案 0 :(得分：1)

那么，我在哪里可以找到与药物基因或蛋白质作用相关的清单，等？

看看ChEMBL，例如aspirin与其目标cyclooxygenase