OLAP,OLTP,数据仓库,分析,分析和数据挖掘如何相关?

时间:2014-09-19 12:25:29

标签: database analytics data-warehouse olap oltp

我试图了解OLAP,OLTP,数据挖掘,分析等是什么,我觉得我对其中一些概念的理解仍然有点模糊。关于这些主题的信息往往在互联网上以非常复杂的方式解释。


我觉得像这样的问题可能会被关闭,因为它是一个非常广泛的问题,所以我会尝试将其缩小为两个问题:

问题1:

经过研究后,我了解以下关于这些概念,是否正确?

  • 分析正在分解复杂的东西,以更好地理解内部工作。
  • 分析是对需要大量数学和统计信息的信息进行预测分析。
  • 有许多类型的数据库,但它们是OLTP(事务性)或OLAP(分析性)。
  • OLTP数据库使用ER图,因此更容易更新,因为它们是标准化形式。
  • 相比之下,OLAP使用非规范化星型模式,因此更容易查询
  • OLAP用于预测分析,OLTP通常用于更实际的情况,因为没有冗余。
  • 数据仓库是一种OLAP数据库,通常由多个其他数据库组成。
  • 数据挖掘是一种用于分析的工具,您可以使用计算机软件找出数据之间的关系,以便预测事物(例如客户行为)。

问题2:

我对分析和分析之间的差异感到特别困惑。他们说分析是多维分析,但那应该是什么意思?

2 个答案:

答案 0 :(得分:10)

我会尝试从金字塔顶端解释你:

商业智能(您未提及的内容)是IT中的术语,代表复杂的系统,并从数据中提供有关公司的有用信息。

因此,BI系统具有目标:清晰,准确且有意义的信息。 清洁意味着没有技术问题(缺少密钥,不完整的数据等)。准确意味着准确 - BI系统也被用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或者使用非活动伙伴等)。它已通过规则完成。有意义很难解释,但用简单的英语,这就是你想要的所有数据(甚至是上次会议的excel表)。

因此,BI系统有后端:它是数据仓库。 DWH只不过是数据库(实例,而不是软件)。它可以存储在RDBMS,分析数据库(列式或文档存储类型)或NoSQL数据库中。

数据仓库是我上面解释的通常用于整个数据库的术语。可能有多个数据集市(如果使用Kimball模型) - 更常见的,或称为企业数据仓库的第三规范化形式(Inmon模型)中的关系系统。< / p>

数据集市是DWH中相关的表(星型模式,雪花模式)。事实表(非规范化形式的业务流程)和维度表。

每个数据集市代表一个业务流程。示例:DWH有3个数据集市。一个是零售,第二个是出口,第三个是进口。在零售中,您可以看到SKU的总销售额,销售数量,进口价格,利润(度量),日期,商店,城市等(维度)。

在DWH中加载数据称为 ETL (提取,转换,加载)。

  1. 从多个来源(ERP数据库,CRM数据库,Excel文件,网络服务......)中提取数据

  2. 转换数据(干净的数据,连接差异数据源的数据,匹配键,我的数据

  3. 加载数据(在特定数据集市中加载转换后的数据)

  4. 因评论而编辑: ETL过程通常使用ETL工具创建,或者使用某种编程语言(python,c#ect)和API手动创建。

    ETL过程是一组SQL,过程,脚本和规则,分为3个部分(见上图),由元数据控制。 它可以安排(每晚,每隔几个小时)或实时(更改数据捕获,触发器,交易)。

    OLTP OLAP 数据处理类型。 OLTP用于事务目的,数据库和软件之间(通常只有一种输入/输出数据)。 OLAP用于规避目的,这意味着有多个来源,历史数据,高选择查询性能,挖掘数据。

    因评论而编辑:数据处理是数据存储和从数据库访问的方式。因此,根据您的需求,数据库以不同的方式设置。

    来自http://datawarehouse4u.info/的图片:

    enter image description here

    数据挖掘是在大型数据集中发现模式的计算过程。挖掘的数据可以为您提供更深入的业务流程视图甚至预测。

    分析是一个动词,在BI世界中意味着简单从数据中获取信息。多维分析实际上说明了系统如何切割数据(维度在多维数据集内)。维基百科说,数据分析是一个检查数据的过程,目的是发现有用的信息。

    Google Analytics 是一个名词,它代表了分析过程的结果。

    不要对这两个词大惊小怪。

答案 1 :(得分:-1)

我可以告诉你关于数据挖掘的事情,因为我有关于数据挖掘的项目。数据挖掘不是一种工具,它是一种挖掘数据的方法和用于数据挖掘的不同工具是WEKA,RAPID MINER等。数据挖掘遵循许多算法,这些算法内置在Weka,Rapid miner等工具中。算法如聚类算法,协同算法等。 一个简单的例子,我可以为您提供数据挖掘。教师通过使用不同的教学方法,如使用黑板,演示,实践,在课堂上教授科学科目。所以现在我们的目标是找到适合学生的方法。然后我们做了调查,并采取学生的意见40名学生喜欢粉笔板,30喜欢演示,20喜欢实用的方法。因此,借助这些数据,我们可以制作例如科学主题的规则,应该用粉笔板方法来教授。 要掌握不同的算法,您可以使用谷歌:D。