应用错误收集

直接从mySQL数据库训练分类器

时间：2018-04-03 15:45:01

标签： database data-science

目前，我有机会担任ML的数据科学家。我的问题如下，是否有可能直接从mySQL数据库训练算法，并且与从csv文件训练它的方式有相似之处。此外，我想知道你是否正在处理非常不平衡的数据集。例如，当您使用0.2％的数据进行测试时，它是否将培训和测试中的负面和正面案例的比例分成相等的比例。任何人都可以向我推荐一个好的教程或文档吗？

1 个答案:

答案 0 :(得分：0)

当然，您可以直接从数据库中训练您的模型。这就是生产系统中的情况。您的软件应该被设计，如果您的数据源是SQL，csv或其他什么并不重要。你没有提到编程语言，很难说，怎么做，但是在python中你可以看一下：How do I connect to a MySQL Database in Python?

如果您的数据集不平衡，就像通常的实际情况一样，您可以使用类权重来让分类器意识到这一点。例如。在keras / sci-kit中学习，您只需传递class_weights参数即可。请注意，如果您的数据集太小，则可能会遇到像准确性这样的默认度量问题。最好看看混淆矩阵或其他指标，如Matthews correlation coefficient

另一个很好的参考： How does the class_weight parameter in scikit-learn work?