目前,我有机会担任ML的数据科学家。我的问题如下,是否有可能直接从mySQL数据库训练算法,并且与从csv文件训练它的方式有相似之处。此外,我想知道你是否正在处理非常不平衡的数据集。例如,当您使用0.2%的数据进行测试时,它是否将培训和测试中的负面和正面案例的比例分成相等的比例。任何人都可以向我推荐一个好的教程或文档吗?
答案 0 :(得分:0)
当然,您可以直接从数据库中训练您的模型。这就是生产系统中的情况。您的软件应该被设计,如果您的数据源是SQL,csv或其他什么并不重要。你没有提到编程语言,很难说,怎么做,但是在python中你可以看一下:How do I connect to a MySQL Database in Python?
如果您的数据集不平衡,就像通常的实际情况一样,您可以使用类权重来让分类器意识到这一点。例如。在keras / sci-kit中学习,您只需传递class_weights参数即可。请注意,如果您的数据集太小,则可能会遇到像准确性这样的默认度量问题。最好看看混淆矩阵或其他指标,如Matthews correlation coefficient
另一个很好的参考: How does the class_weight parameter in scikit-learn work?