数据仓库的含义,数据仓库和数据库的区别。
目前,数据仓库这个词还没有一个统一的定义。著名的数据仓库专家W.H.Inmon在其著作《构建数据仓库》中给出了如下描述:数据仓库是一个面向主题的、集成的、非易失的、时变的数据集,用于支持管理决策。我们可以从两个层面来理解数据仓库的概念。首先,数据仓库用于支持决策和面向分析的数据处理,不同于企业现有的运营数据库。其次,数据仓库是多个异构数据源的有效集成。整合后按照主题重新组织,包含历史数据,存储在数据仓库中的数据一般不做修改。
数据库是加载数据(信息的原材料)的地方。
数据仓库是一种系统,也是用数据库加载东西。
数据仓库系统(用数据库加载东西)与其他基础业务系统(如财务系统、销售系统、人力资源系统等)的区别。,也用数据库加载东西)如下:
基本业务系统的特点是自己管理。比如财务系统生产白菜,会加载一个数据库,人力资源系统生产猪肉,然后会加载一个数据库。如果我想做一道菜,需要去各个数据库取,比较麻烦(现实情况是大部分时候是种菜的叔叔给我发的,但是我发的不一定是我想要的,而且不同时间想要的东西不一样,往往会让双方都不开心)。另一方面,每个数据库里都有一些原始的东西。我要带他们去做饭,还要经历一个很麻烦的清洗过程。如果我不小心,里面可能藏着一只大毛毛虫。
然后,数据仓库系统就是建一个大超市,把各地农民伯伯生产的东西收集起来,清洗干净,分门别类放好。这样,当你想要什么样的食物时,直接从超市拿就行了。
早期,我不明白什么是数据仓库。
从宏观的角度来看,数据仓库是公司所有数据堆积的地方。之所以把所有的数据堆在一起,是想从中间找到一些有价值的东西。
数据仓库更多的是一个概念。不要认为数据仓库是被称为数据仓库的软件产品。
数据仓库实际上是一个数据库。相关的业务系统数据库称为OLTP数据库(用于业务处理),这个数据库称为OLAP数据库(用于业务分析)。
数据仓库的概念基于以下基本要求:
公司业务系统多,业务系统的历史数据不方便查询。不同的业务系统往往有不同的管理部门和不同的区域。你能收集所有这些数据并找出是否有任何有意义的商业规则吗?
数据仓库的数据库往往非常大,因为公司所有数据集中的数据越多,能发现的有价值的发现就越多。比如随便在100G g以上。
数据仓库的组成非常复杂,包括业务系统的历史数据、人事和财务数据,以及一些基础数据,如公共假期数据、地理信息、国家信息等等。
数据仓库的概念包括从业务生产系统收集数据的程序,它不能影响业务系统的运行。(属于所谓的“ETL”过程)
数据仓库包括业务系统的长期历史数据,如五年,用于分析。(所谓的“ODS”数据)
数据仓库包括为某个业务值(如销售额)重新标记的业务流数据。(所谓的“事实表”和“维度表”)。
数据仓库的概念可能还包括报告生成工具(所谓的“BI”工具)。这些工具可以达到几年前所谓的DSS(决策分析)效果。
数据仓库中客户历史数据的分析可能与CRM系统有关。
总之,一家公司想充分利用现有的历史业务数据,所以去做数据仓库项目。至于吓唬人的大写字母组合,达到这个目的只是科技而已。
牢记数据仓库的基本需求,不要被供应商吓到。
数据仓库可以说是一个决策支持系统,可以帮助老板了解企业的全貌。老板看到数据仓库提供的数据后,就可以凭自己的管理经验找出企业的问题或困难或成功因素,然后就可以不断追溯数据,直到确定最具体的细节,从而不断提高老板或管理层的管理水平和企业的管理水平。我们所知道的最好的例子是美国一家大型超市里啤酒和尿布的故事。
美国沃尔玛的一位店长曾经发现,每周啤酒和纸尿裤的销量都会同比上升,但不清楚原因。后来,沃尔玛利用商业智能(BI)技术发现,购买这两款产品的顾客几乎都是25岁至35岁、家里有婴儿的男性,每次购买都是在周末。沃尔玛分析相关数据后了解到,这些人习惯在晚上一边照顾孩子一边看足球赛喝啤酒,用一次性纸尿裤省事。得到这个结果后,沃尔玛决定将两种产品放在一起,结果两种产品的销量都大幅增长。
数据库是数据仓库的基础。数据仓库实际上是由数据库中的许多表组成的。需要对存储大量运营业务数据的数据库进行筛选、提取、汇总、统计,转换成新的数据库。然后数据就会呈现出来。老板关心的是数据展示的结果。
数据仓库/数据集市的另一个重要概念是数据从不同的数据库中转出来,通过ETL工具(如POWERCENTRE、Decision Stream、SQL Server 2000 DTS和SQL Server 2005 SSIS)进行清洗、确认、集成和设计成一个维度框架。保证数据的正确性、准确性和完整性是非常重要的。
我们现在的项目已经稳定运行了6年多,一直是我们自己开发的。最近我们慢慢开始用datastage了。很多大型项目之所以使用工具,是因为工具的特点是开发速度快,效率相对可以接受,可以让你把更多的精力花在业务、数据库优化、数据测试上,与数据质量本身无关。
数据质量与一系列项目工程过程密切相关,如设计(架构、模型等。)、对业务关系的理解、项目管理(包括与客户的沟通、遵守开发和测试流程)。这也是很多项目使用ETL工具,数据质量却没有太大提升的主要原因。
数据仓库的作用在于数据的集中管理。集中管理的最终目的是分析和预测。
所谓的ETL。然而,这是构建数据仓库的一个必经过程。数据的提取、转换和加载是集中管理的基础工作,这些数据和动作的描述将通过响应元数据来描述。
在数据仓库建模过程中,我们通常采用多维模型,如星形、雪花形等。这样最大的特点就是效率高,数据冗余低。因此,我认为把OLAP和数据仓库混为一谈是一种片面的解释。
我们也可以选择业务逻辑模型来构建数据仓库,这是很久以前就做的。其特点是效率低,数据冗余高,但可以实现非常难以表达的业务逻辑设计。
基于数据仓库,最重要的是分析和预测。在我看来,历史是现在和未来数据仓库的本质。。
基于数据仓库的数据挖掘和OLAP都是为了分析和预测。为了让用户更好地把握现在,预测未来,他最有效的说法,我认为,是决策管理中决策者和管理者进行分析和预测的依据。
此外,数据仓库还将服务于对历史数据进行分类和归档的目的(就像图书馆一样),然后可以通过检索条件方便地查询历史信息;OLTP中已经更新了类似的信息。
至于它的分析功能,就像气象考古研究一样,当时的气象信息都保存在不同深度的冰川中,否则,用什么来预测气候变化趋势呢?
但是,必须有相当的管理和技术储备以及管理层的大力支持。有了需求,具备了必要的条件,你才能入门,否则你的数据仓库就不是超市而是垃圾场,“垃圾进,再垃圾出”!
所以我认为是企业信息化建设和科学管理水平的提高催生了数据仓库的必然出现。不要跟风炒作概念。关键是要冷静分析自己企业的实际情况是否已经到了部署数据仓库的阶段!
至于如何说服管理者,就需要你的努力了。不要站在你们技术人员的立场上解释问题。首席执行官对技术问题不感兴趣。站在他们的角度思考问题,回答诸如“我们投入了这么多的资金和人力,同时又面临着系统升级的巨大风险。目的是什么?”记住,CEO和CFO(甚至CIO)更喜欢用数字说话。你可以通过分析公司的管理决策过程,为他们提供有价值的决策支持报告,部门经理(或类似人员)也不必每个季度都做相关的分析报告。省下来的能量可以做更有价值的事情。这就是企业人力资源利用率的极大提高,能省多少钱。我怕CEO不会用你来提示!