我试图了解OLAP,OLTP,数据挖掘,分析等是什么,我觉得我对其中一些概念的理解仍然有点模糊。关于这些主题的信息往往在互联网上以非常复杂的方式解释。
我觉得像这样的问题可能会被关闭,因为它是一个非常广泛的问题,所以我会尝试将其缩小为两个问题:
问题1:
经过研究后,我了解以下关于这些概念,是否正确?
问题2:
我对分析和分析之间的差异感到特别困惑。他们说分析是多维分析,但那应该是什么意思?
答案 0 :(得分:10)
我会尝试从金字塔顶端解释你:
商业智能(您未提及的内容)是IT中的术语,代表复杂的系统,并从数据中提供有关公司的有用信息。
因此,BI系统具有目标:清晰,准确且有意义的信息。 清洁意味着没有技术问题(缺少密钥,不完整的数据等)。准确意味着准确 - BI系统也被用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或者使用非活动伙伴等)。它已通过规则完成。有意义很难解释,但用简单的英语,这就是你想要的所有数据(甚至是上次会议的excel表)。
因此,BI系统有后端:它是数据仓库。 DWH只不过是数据库(实例,而不是软件)。它可以存储在RDBMS,分析数据库(列式或文档存储类型)或NoSQL数据库中。
数据仓库是我上面解释的通常用于整个数据库的术语。可能有多个数据集市(如果使用Kimball模型) - 更常见的,或称为企业数据仓库的第三规范化形式(Inmon模型)中的关系系统。< / p>
数据集市是DWH中相关的表(星型模式,雪花模式)。事实表(非规范化形式的业务流程)和维度表。
每个数据集市代表一个业务流程。示例:DWH有3个数据集市。一个是零售,第二个是出口,第三个是进口。在零售中,您可以看到SKU的总销售额,销售数量,进口价格,利润(度量),日期,商店,城市等(维度)。
在DWH中加载数据称为 ETL (提取,转换,加载)。
从多个来源(ERP数据库,CRM数据库,Excel文件,网络服务......)中提取数据
转换数据(干净的数据,连接差异数据源的数据,匹配键,我的数据)
加载数据(在特定数据集市中加载转换后的数据)
因评论而编辑: ETL过程通常使用ETL工具创建,或者使用某种编程语言(python,c#ect)和API手动创建。
ETL过程是一组SQL,过程,脚本和规则,分为3个部分(见上图),由元数据控制。 它可以安排(每晚,每隔几个小时)或实时(更改数据捕获,触发器,交易)。
OLTP 和 OLAP 是数据处理类型。 OLTP用于事务目的,数据库和软件之间(通常只有一种输入/输出数据)。 OLAP用于规避目的,这意味着有多个来源,历史数据,高选择查询性能,挖掘数据。
因评论而编辑:数据处理是数据存储和从数据库访问的方式。因此,根据您的需求,数据库以不同的方式设置。
来自http://datawarehouse4u.info/的图片:
数据挖掘是在大型数据集中发现模式的计算过程。挖掘的数据可以为您提供更深入的业务流程视图甚至预测。
分析是一个动词,在BI世界中意味着简单从数据中获取信息。多维分析实际上说明了系统如何切割数据(维度在多维数据集内)。维基百科说,数据分析是一个检查数据的过程,目的是发现有用的信息。
Google Analytics 是一个名词,它代表了分析过程的结果。
不要对这两个词大惊小怪。
答案 1 :(得分:-1)
我可以告诉你关于数据挖掘的事情,因为我有关于数据挖掘的项目。数据挖掘不是一种工具,它是一种挖掘数据的方法和用于数据挖掘的不同工具是WEKA,RAPID MINER等。数据挖掘遵循许多算法,这些算法内置在Weka,Rapid miner等工具中。算法如聚类算法,协同算法等。 一个简单的例子,我可以为您提供数据挖掘。教师通过使用不同的教学方法,如使用黑板,演示,实践,在课堂上教授科学科目。所以现在我们的目标是找到适合学生的方法。然后我们做了调查,并采取学生的意见40名学生喜欢粉笔板,30喜欢演示,20喜欢实用的方法。因此,借助这些数据,我们可以制作例如科学主题的规则,应该用粉笔板方法来教授。 要掌握不同的算法,您可以使用谷歌:D。