机器学习技术在化学中的应用

时间:2011-12-09 08:55:36

标签: machine-learning chemistry

我是一名计算机科学专业的学生,​​我必须选择未来研究工作的主题。我真的想用计算机来解决化学(或生物学)中的一些科学问题。我对机器学习领域也很感兴趣。

我一直在互联网上冲浪一段时间,并在这类问题上找到了一些特别的参考资料。但不幸的是,这些东西对我来说还不够。

所以,我感兴趣的是社区对特定资源的推荐,这些资源介绍了应用ML技术来解决化学问题 - 例如,期刊文章或描述典型(或新的)问题的好书。化学被解决“in silico”。

1 个答案:

答案 0 :(得分:4)

我认为,化学和任何领域一样,都会有最丰富的问题​​,特别适合ML。我想到的问题的标题是天然存在的化合物的 QSAR (定量结构 - 活性关系)和前瞻性的,例如药物设计。

或许可以看一下AZOrange - 一个完整的ML库,其唯一目的是使用ML技术解决化学问题。特别是,AZOrange是一个备受推崇的GUI驱动的ML库Orange的重新实现,专门用于解决QSAR问题。

此外,这里有两个特别好的 - 都是在去年和两者中发表的,ML是核心(链接是 Journal of Chemoinformatics 网站上的文章页面并包括每篇文章的全文):

AZOrange-High performance open source machine learning for QSAR modeling in a graphical programming environment

2D-Qsar for 450 types of amino acid induction peptides with a novel substructure pair descriptor having wider scope

在我看来, QSAR 问题的一般自然是ML研究的理想选择:

  • 期望变量之间的高度非线性关系 (例如,“特征”)和响应变量(例如,“类标签”或 “回归估计”)

  • 至少对于较大的分子,结构活性 关系足够复杂,至少有几个 通过分析手段解决几代人,所以任何希望 准确预测这些关系只能是可靠的 由经验技术执行

  • 海洋培训数据配对分析的某种形式 仪器产生的数据(例如,由X射线确定的蛋白质结构) 结晶学)用实验室数据记录化学行为 该蛋白质的行为(例如,反应动力学)


所以这里有一些关于ML化学界面有趣和当前研究领域的建议:

QSAR预测应用当前的“最佳实践”;例如,赢得 NetFlix奖 (2009年9月颁发)的技术并非基于最先进的ML算法,而是使用了kNN。获胜技术的有趣方面是:

  • 数据插补技术 - 重新生成缺少一个或多个特征的数据行的技术;特别的 解决这个稀疏性问题的技术通常被称为 术语 正最大保证金矩阵因子分解 (或 非负最大边际矩阵分解)。也许有 一个有趣的QSAR问题被ML认为是不可解决的 技术因数据质量差,特别是稀疏性。 有了PMMMF,这些可能是重新审视的好问题

  • 算法组合 - 后处理技术的标题,涉及两个或多个结果的组合 分类器在ML之前通常为ML从业者所知 NetFlix奖但事实上这些技术很少使用。最多 广泛使用的这些技术是 AdaBoost ,Gradient Boosting,以及 Bagging (引导程序聚合)。我想知道是否有一些QSAR 最先进的ML技术尚未完全解决的问题 提供了所需的分辨率或预测准确度 问题背景;如果是这样的话,知道是否有意义 通过组合分类器可以改善这些结果。除了它们对预测准确性的显着改进之外,这些技术的另一个优点是它们中的许多非常易于实现。例如,Bagging的工作原理如下:训练你的分类器一些时代并查看结果;识别训练数据中那些导致分类器分辨率最差的数据点 - 即数据点在多个时期内一致地预测错误;对这些训练实例应用更高的权重(即,对于不正确的预测更严重地惩罚分类器)并使用此“新”数据集重新训练我们的分类器。