应用错误收集

我认为，化学和任何领域一样，都会有最丰富的问题，特别适合ML。我想到的问题的标题是天然存在的化合物的 QSAR （定量结构 - 活性关系）和前瞻性的，例如药物设计。

或许可以看一下AZOrange - 一个完整的ML库，其唯一目的是使用ML技术解决化学问题。特别是，AZOrange是一个备受推崇的GUI驱动的ML库Orange的重新实现，专门用于解决QSAR问题。

此外，这里有两个特别好的 - 都是在去年和两者中发表的，ML是核心（链接是 Journal of Chemoinformatics 网站上的文章页面并包括每篇文章的全文）：

在我看来， QSAR 问题的一般自然是ML研究的理想选择：

所以这里有一些关于ML化学界面有趣和当前研究领域的建议：

QSAR预测应用当前的“最佳实践”;例如，赢得 NetFlix奖 （2009年9月颁发）的技术并非基于最先进的ML算法，而是使用了kNN。获胜技术的有趣方面是：

数据插补技术 - 重新生成缺少一个或多个特征的数据行的技术;特别的解决这个稀疏性问题的技术通常被称为术语 正最大保证金矩阵因子分解 （或非负最大边际矩阵分解）。也许有一个有趣的QSAR问题被ML认为是不可解决的技术因数据质量差，特别是稀疏性。有了PMMMF，这些可能是重新审视的好问题
算法组合 - 后处理技术的标题，涉及两个或多个结果的组合分类器在ML之前通常为ML从业者所知 NetFlix奖但事实上这些技术很少使用。最多广泛使用的这些技术是 AdaBoost ，Gradient Boosting，以及 Bagging （引导程序聚合）。我想知道是否有一些QSAR 最先进的ML技术尚未完全解决的问题提供了所需的分辨率或预测准确度问题背景;如果是这样的话，知道是否有意义通过组合分类器可以改善这些结果。除了它们对预测准确性的显着改进之外，这些技术的另一个优点是它们中的许多非常易于实现。例如，Bagging的工作原理如下：训练你的分类器一些时代并查看结果;识别训练数据中那些导致分类器分辨率最差的数据点 - 即数据点在多个时期内一致地预测错误;对这些训练实例应用更高的权重（即，对于不正确的预测更严重地惩罚分类器）并使用此“新”数据集重新训练我们的分类器。