最近,我正在由Andrew Ng教授在Coursera学习机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:
我在哪里可以找到真实世界的机器学习用例?
工业/机械生产中使用了哪些工具或框架 学习项目?
如何在生产中使用或部署机器学习模型?
如何成为数据科学家?或者下一步该怎么做?
任何建议,书籍,课程或教程链接都将受到高度赞赏。
答案 0 :(得分:14)
恭喜Andrew Ng完成机器学习课程,很久以前我也做过这个很棒的课程。 无论如何,我会逐一回答你的问题,尽管几乎没有相关的问题。
Q-1)我在哪里可以找到Real world机器学习用例?
以下是一些链接,您可以在这些链接中找到使用实际用例的机器学习教程:
机器学习示例Scikit了解:http://scikit-learn.org/stable/tutorial/basic/tutorial.html
机器学习教程H20:https://github.com/h2oai/h2o-tutorials
Sagemaker Machine Learning&深度学习示例:https://github.com/awslabs/amazon-sagemaker-examples
Q-2)工业/生产机器中使用了哪些工具或框架 学习项目?
在工业级别中使用了各种各样的工具或框架,如:
机器学习:
深度学习:
虽然R,Scikit了解到,GraphLab在数据科学家或机器学习从业者的单机和最受欢迎的选择中运行良好,但Mahout,H20和最近的Spark(MLlib)在这个大数据时代已经获得了很多人气,您希望在大型数据集上进行机器学习的地方。
此外,还有一些其他工具,如Weka,Rapid Miner,用于基于GUI的机器学习工作流程。
此工具或框架的选择实际上取决于项目要求,团队成员对工具/语言的了解,易于开发和部署的可扩展性等因素。
Q-3)如何在生产中使用或部署机器学习模型?
在制作中,你必须首先建立一个模型,验证&评估该模型,然后最终将模型部署为Web / rest服务以供其他应用程序/服务使用。部署机器学习模型取决于很多因素,例如 -
有一些基于云的机器学习服务提供商,如Azure ML(https://studio.azureml.net/)BigML(https://bigml.com/)等,您可以在其中上传数据集,进行一些数据处理,培训|验证|评估您的机器学习模型,然后最终将其作为Web服务部署在云中。
现在所有主要的云平台(aws,google cloud,azure)都为您提供了一个机器学习平台,您可以在其中构建自己的模型,评估它们,然后最终在云中部署它。它使您可以灵活地使用几乎所有主要的机器学习或深度学习框架来构建模型,并根据您的要求为您提供部署的灵活性(什么类型的服务器/容器,推理/预测服务器的数量等)。 / p>
Amazon SageMaker:
[+] https://aws.amazon.com/sagemaker/
Google Cloud Machine Learning(ML)引擎:
[+] https://cloud.google.com/ml-engine/
Q-4)如何成为数据科学家?或者我接下来应该做什么?
这是一个百万美元的问题和很多关于这个问题的谷歌搜索......哈哈......我会尽量根据我的知识给你一个简短的答案。首先,数据科学是一个更广泛的研究领域,包括以下常见步骤:
除此之外,您还需要根据数据变化的变化进行模型再处理,或者您可以部署在线学习模型(它将根据所看到的数据进行自我调整)。
但任何人成为数据科学家/机器学习从业者的基本要素都是对数据的好奇心(即理解数据并从中找到有价值的知识)。既没有成为数据科学家的捷径,也没有任何课程可以让你在一夜之间成为数据科学家。
没有预定义的角色/范围数据科学人员应该在公司中日常了解或做什么。根据业务问题,不同的行业或公司对数据科学家有自己的工作要求/描述。
一位优秀的多才多艺的数据科学家必须具备以下技能才能在各个行业中自信地维持并在他/她的职业生涯中取得成功:
熟悉统计学知识(包括一点贝叶斯语) - 在EDA阶段必不可少。
数学(特别是线性代数,矩阵,向量,多元微积分):https://www.coursera.org/specializations/mathematics-machine-learning
机器学习算法的实用知识:https://www.coursera.org/specializations/machine-learning
一些深度学习和强化学习知识。斯坦福深度学习课程:http://cs231n.stanford.edu/和本课程的youtube视频作者:Andrej Karpathy- https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk。 DeepLearning Coursera:https://www.coursera.org/specializations/deep-learning和强化学习课程 - 伯克利大学:http://rail.eecs.berkeley.edu/deeprlcourse/
通过Spark和SQL等大数据工具进行大型数据集分析。使用大数据进行机器学习:https://www.coursera.org/learn/machine-learning-applications-big-data
好奇心探索数据和学习新事物(了解这一领域的最新创新)。
还有一些商业领域的知识 - 很好(可选)
最好的方法是玩数据或做一些真实的项目。 有许多可公开获得的真实数据集,您可以选择您感兴趣的数据集。此外,您还可以参加Kaggle的机器学习和数据科学竞赛来测试您的技能和专业知识。
要获得一些有关数据科学的知识,以及它如何与一些练习一起工作,你可以尝试在线课程,如:
https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2
https://www.edx.org/course/data-science-machine-learning-essentials-microsoft-dat203x