机器学习概述

时间:2013-04-18 17:00:33

标签: machine-learning analytics enterprise

这可能不是要问SO的问题类型,而只是想了解其他人在大型企业环境中实施机器学习算法时需要考虑的因素。

我的目标之一是研究可根据公司的特定需求量身定制的行业机器学习解决方案。作为我团队中具有数学背景并且之前已经完成机器学习算法背景阅读的唯一人,我的任务是解释/比较行业中的机器学习解决方案。从我通过谷歌搜索收集到的内容,似乎:

一个。机器学习和预测分析并不完全相同,那么当公司提供预测分析软件与机器学习软件时,本质上有什么不同? (例如IBM Predictive Analytics vs. Skytree Server)

湾许多流行的术语经常被纠缠在一起,特别是在大数据,Hadoop,机器学习等方面。任何人都可以澄清这些术语之间的区别吗?从我所学到的,我认为概念分离就像:

  • 机器学习算法
  • 软件实施
  • 在大型数据集(Hadoop)上运行软件的基础架构

℃。在实施解决方案时,大多数公司是否聘请解决方案公司的顾问来帮助实施算法,或者大多数算法是预构建的,任何数据分析师都可以使用它们?或者,我们是否需要一个数据科学家团队,即使使用该软件,也需要运行算法并理解输出?

我知道这是一个冗长的问题,但任何信息都会有所帮助。很难成为唯一一个远程了解这些东西的人,所以我很想听听更多经验丰富的技术人员所说的话。

4 个答案:

答案 0 :(得分:1)

如果不了解您拥有的数据量以及公司的需求,很难回答您的问题。这将帮助您缩小哪些类型的解决方案可以满足您的需求。其中,可能会有开源解决方案(可能是Mahout),可视化解决方案以及各种帮助您管理数据的解决方案。

答案 1 :(得分:1)

关于大数据/ Hadoop / ML: 大数据是一个术语,用于定义您需要处理的数据的本质。大多数情况下,您可以定义大数据与普通"普通"一个被称为3V的东西 - 体积,多样性和速度。 阈值定义"大数据所需的量是多少?#34;没有科学定义,而是更多地考虑可行性因素:如果您认为数据量会在维护常规数据库(MySql等)时产生大量开销,那么您可能会考虑使用大数据解决方案。 Hadoop 只是用于处理大数据的最常用工具。

机器学习是数据科学中从统计学和计算机科学演变而来的子领域。我们的想法是让机器在没有明确编程的情况下学习。简而言之,学习方法的目标是概括过去的数据以预测新数据。 大数据和机器学习是一起提到的,因为ML技术的本质需要数据才能学习。业界存在大数据的趋势,大数据的本质需要为ML算法提供大量数据才能学习(非结构化稀疏数据)。

大多数公司雇用数据科学家来处理这项任务,因为它需要常规数据分析师不具备的统计,计算机科学,算法等方面的大量知识。 大多数数据科学家的工作都不是"运行一个现成的算法"在你开始考虑算法之前,有很多准备和静态分析数据。 您不需要提前聘请团队,但它可以根据需要随着时间的推移逐渐增长。

答案 2 :(得分:1)

关于你问题的第三部分:

学习一些新的和强大的东西总是有一个初步的学习曲线。这同样适用于使用机器学习的数据建模。如果你受到预算等限制的约束,那么你需要花一些时间来学习算法功能的基础知识,然后再实现它的实现。但是,如果您受到时间限制,您可能需要聘请数据科学家/机器学习工程师团队。但是,从长远来看,如果您开始了解一些机器学习,这将始终有所帮助,以便您可以轻松地与您的团队协作。

答案 3 :(得分:0)

回答问题的C部分,机器学习具有针对有监督和无监督方法的预建算法。要为组织提供解决方案,我们首先必须了解客户的需求,在选择算法之前,我们首先选择监督学习或无监督学习。如果需要监督学习,那么首先我们必须进行特征工程,这是监督学习中非常重要的一部分,它在主体中找到从其他部分识别出来的属性。然后我们再次基于问题选择分类算法或预测算法。为此,我们有许多算法,但选择最好的算法,完全取决于您的硬件容量和数据处理能力算法。我们有比较图表。

当我们想要识别数据中的异常或我们想要对具有相似属性的数据进行聚类时,无监督学习是最好的。

希望这有助于您理解问题的第三部分。