CSDN博客

img zhaoyang17

从呼叫中心通向CRM—数据仓库必不可少

发表于2004/10/18 17:11:00  1177人阅读

从呼叫中心通向CRM—数据仓库必不可少

段云峰 杨凤年 宋俊德 2002/04/19

  在呼叫中心业务系统收集到大量数据之后,要将这些信息进行有效利用,从而为CRM系统提供正确的依据,这个过程中,数据仓库是必不可少的要素。数据仓库是一项基于数据管理和利用的综合性技术和解决方案,它将成为数据库市场的新一轮增长点,同时也将成为下一代应用系统的重要组成部分。

  本文共分三大部分,介绍了数据仓库及数据集市的概念,并对如何获取高质量信息、数据仓库的设计和实现、数据仓库系统中的三个工具层以及数据仓库平台的评测指标进行了较为详细的阐述,同时分析了数据仓库的发展方向。

什么是数据仓库?

  1.数据仓库概念解析

  面对竞争日趋激烈与瞬息万变的市场,面对不同层次的大量信息,企业各级管理人员将如何应用,以便在企业的经营和管理中迅速做出正确的决策?

  数据仓库就是针对上述问题而产生的一种技术方案,它是基于大规模数据库的决策支持系统环境的核心。数据仓库之父H·W·Inmon是这样定义数据仓库的:数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。

  我们常常会认为,数据仓库是一个或一组产品,可以帮助我们得到问题的答案,或帮助我们提高决策能力。其实数据仓库并不是这么简单,它虽然可以帮助我们得到答案以便更好地做出决策,但这只是其全局过程的一部分。数据仓库中的数据从何而来?数据如何进入数据仓库?如何维护数据仓库?数据仓库中的数据如何组织?这些都是建立数据仓库之前必须回答的问题。建立数据仓库包括创建、管理、维护数据仓库的所有活动。因此,数据仓库不是产品,而是解决方案。

 

 

  数据仓库和数据库是不一样的概念。数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动。与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,在技术上可以根据它的工作过程分为数据的抽取、数据的存储和管理、数据的表现以及数据仓库设计的技术咨询等四个方面。

  2.数据仓库与数据集市的区别

  谈到数据仓库,就不可避免地谈到数据集市。由于一些厂商的误导,很多人往往把这两个概念混淆了。数据集市也是当前非常热门的一个术语,一种比较常见的误解是,认为它与数据仓库的差别只是数据量的大小而已。事实上,数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段: 而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。

  数据集市有两种,即独立的数据集市(Independent Data Mart)和从属的数据集市(Dependent Data Mart)。所谓从属,是指它的数据直接来自于中央数据仓库。显然,从属的数据集市的这种结构仍能保持数据的一致性。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。独立数据集市,它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是这种结构的独立数据集市,用来解决个别部门比较迫切的决策问题。从这个意义上讲,它和企业数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别,这也是有人把数据集市称为部门数据仓库的主要原因。

如何建立数据仓库?

  1.获取高质量的信息

  数据仓库作为决策支持系统(DSS)和联机分析应用数据源的结构化数据环境所要研究和解决的问题,就是从数据库中获取信息。数据质量差是构建数据仓库时需要解决的最困难的问题之一,有许多不同的方法可以用于改善数据仓库中信息的质量。当发现在源系统中哪些地方存在数据质量问题之后,就需要研究一些方法来改善数据质量。一种改善数据仓库中数据质量的方法是改善源系统中数据质量: 另一种方法是在将数据从老系统移植到数据仓库的过程中校正数据。

  2.数据仓库的设计和实现

  (1)设计与实现过程

 

  • 定义仓库的体系结构,做容量规划,选择存储服务器、数据库、OLAP服务器以及其他工具;
  • 集成服务器、存储、客户端工具;
  • 设计仓库的模式和视图;
  • 定义物理的数据仓库结构,确定数据的存放、分区以及访问的方法;
  • 使用数据网关、ODBC驱动程序或者其他封装器连接数据源;
  • 设计并实现数据抽取、清洗、转换、装载和刷新的脚本程序;
  • 将数据库的模式、视图定义、脚本以及其他元数据装入仓库;
  • 设计并实现终端用户的应用程序;
  • 将数据仓库和基于它的应用投入使用。

 

  (2)需要注意的问题

  数据仓库的模型设计(包括逻辑模型设计和物理模型设计)是系统的基础和成败的关键,在实际操作中应对下列问题引起注意:

 

 

 

  • 主题的确定:主题是一个逻辑概念,它应该能够完整、统一地描述出分析对象所涉及的各项数据以及相互联系。划分主题的根据主要来源于两方面: 对原有固定报表的分析和对业务人员的访谈。原有固定报表能较好地反映出以往工作对数据分析的需求,而且其数据含义和格式相对成熟、稳定,在模型设计中需要大量借鉴。

 

 

 

  • 分析内容的细化:主题的划分实际上是与分析内容的范围直接相关的,一旦主题划分清楚了,下一步就是细化分析的具体内容以及根据分析内容的性质确定它在数据仓库中的位置。通常,维元素对应的是分析角度,而度量对应的是分析所关心的具体指标。一个指标究竟是维元素、度量还是维属性,取决于其具体的业务需求,但从实际操作中可以总结出这样的概念性经验: 作为维元素或维属性的通常是离散型的数据,只允许有限的取值;作为度量的是连续型数据,取值无限。

 

 

 

  • 粒度的设计:数据仓库模型中所存储的数据的粒度,将对信息系统产生多方面影响。事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分以及聚合表中粒度的选择,将直接影响查询的响应时间。

 

   在数据抽取过程中,应该注意以下几点:

 

 

 

  • 数据抽取的规则要作为元数据进行规范和管理,抽取过程中的源表、源字段、目的表、目的字段、转换规则以及转换条件都要做好详细记录。这样不仅便于编程人员实现,而且在抽取规则或逻辑模型发生变化时也便于修改。

 

 

 

  • 如何记录业务数据库中的变动情况,是数据抽取中一个重要的环节。由于数据仓库中是按时间保存数据,因此不同时间点之间数据的差异就成为一个关键性因素。通常可以利用数据库管理系统提供的手段在数据库级产生数据变动日志,根据日志再判断数据的变动情况完成抽取,这是一个从性能、可操作性以及对原业务系统的影响等多方面综合考虑都比较理想的方法。

 

 

 

  • 当数据仓库中同一表中的数据来自于原有系统中不同的表,甚至不同的库时,抽取时务必保证这些数据单位一致,而且都满足同一时间条件。

 

 

 

  • 数据抽取不仅要考虑数据的提取,还要考虑抽取的时间安排和执行方式,这样才是一个完整的数据抽取方案,也才能保证抽取出来的数据准确、可用。

 

  3.数据仓库系统的三个工具层

  OLAP的查询分析型工具、DSS的分析预测型工具与数据挖掘型工具共同构成了数据仓库系统的工具层。它们各自的侧重点不同,适用范围和针对的用户也不相同。数据仓库系统具备了这三种工具,人们才能真正高效地利用其中蕴藏的大量宝贵的信息。

  (1)联机分析处理(OLAP)

  联机分析处理主要通过多维的方式对数据进行分析、查询和报表。它不同于传统的联机事物处理(OLTP)应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。

  目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以与数据挖掘工具、统计分析工具配合使用,增强决策分析功能。

  (2)决策支持系统(DSS)

  决策支持系统(DSS)和数据仓库的目标用户相同,都是面向企业的中高层领导,它们执行的都是决策和趋势分析类的应用。DSS中的一些技术可以很好地集成到数据仓库中,并使数据仓库的分析能力更加强大。例如:DSS中的传统统计分析模型可以帮助用户对数据仓库中的数据进行更加有效、更加深入的分析,从而更好地掌握和利用信息。而一些智能决策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能。这些DSS的核心技术在数据仓库中的应用,不但会大大提高数据仓库的决策支持能力,同时也使DSS的应用范围更加广泛。

  (3)数据挖掘

  数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效益。数据挖掘不一定需要建立在数据仓库的基础上,但是如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。由于数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要且相对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。

  4.数据仓库平台的评测指标

  由于许多数据库厂商都在大力推广和宣传自己的数据仓库解决方案,使最终用户无所适从。那么,是否有第三方机构或组织制订一个比较公正而权威的评测标准呢?回答是肯定的。

  目前,专门针对数据仓库平台的评测指标主要有两个:

  (1)TPC-D

  TPC是一个国际性的组织,由45个会员公司组成,IBM、Microsoft、NCR、NEC、HP、Sun等跨国公司都是其会员。TPC专门负责为各种开放平台在不同类型的应用上制定一个统一、公正的测试标准。

  对于OLTP系统,衡量其数据库性能的主要指标是TPC-C,这里不做分析。对于数据仓库系统,衡量其数据库性能的主要指标则是TPC-D。主要有3方面的数据需要考虑:

 

 

 

  • QppD:描述系统的查询处理能力。
  • QthD: 即流量测试结果,描述系统在多个用户同时进行查询时的处理能力。换言之,它也充分代表了系统的并行处理能力。
  • QphD:即价格性能比。

 

  显然,前面两个指标的数据越大越好,而最后一个则越小越好。当然,首先要考虑的应该是能否满足业务上的需求。

  各家供应商的TPC-D值以及TPC-D的详细描述可以从TPC在Internet的主页上找到。另外,也可以从Microsoft、IDEAS等公司的主页上找到TPC-D的测试结果。

  需要做些说明的是流量测试结果。尽管它描述了系统处理并发查询请求的能力,但并非所有厂商的流量测试都是在多用户状态下进行的。TPC-D给了供应商们一个选择: 直接进行多用户状态下的流量测试; 或者先在单用户状态下进行测试,然后利用测得的处理能力指标QppD和流量指标的计算公式来计算出QthD。

  如何区分这两种测试结果呢?只要把TPC-D的测试概要下载并打印出来,就可以了解在做流量测试时的Stream数目。Stream数实际上代表了同时递交查询请求的用户个数。如果是单用户状态下的测试,则只能发现一个Stream,即Stream00。

  (2)Data Challenge

  由于TPC-D对测试的数据库模型、数据的加载以及所有查询都做了非常严格的规定,这样,参与测试的各厂商有可能预先做许多调整,使其性能更好,致使数据仓库的实际应用情况与之有较大的区别。因此,TPC-D的测试结果主要给用户在做数据仓库软硬件平台选型时提供一个初步的参考。

  除TPC-D以外,还有一个于1998年5月宣布的称为Data Challenge(数据挑战)的测试标准。与TPC-D不一样的是,它非常注重考察系统的动态查询能力,所有查询都不公开,参与测试的厂商无法做预先的调整。测试前由各厂商按照规定设置好环境,然后由Data Challenge公司的技术专家来进行各种性能评测。

  当用户在决定选择一个厂商为其实施数据仓库系统时,至少应该考虑以下问题:

 

 

 

  • 目前业务部门有些什么急需解决的问题,这些问题借助传统的生产系统能解决吗?
  • 所选厂商在此行业是否有实施数据仓库的经验?效果如何?
  • 目前有多大的数据量,今后的扩展要求如何,能不能做在线的升级?
  • 系统的并行处理能力怎样?因为它将直接影响系统处理复杂查询和动态查询的能力。
  • 对系统的管理是否复杂?有没有数据库重组的问题?因为复杂的管理需要很多的数据库管理员,这种人工是非常昂贵的。
  • 系统的高可用性和可靠性如何?当系统发生故障时,对业务产生的影响有多大,企业对这种故障的容忍程度如何?

 

  当认真考虑了以上各方面的问题后,所投资建立的实际系统一般都能达到预期的效果。

数据仓库向何处去?

  1.技术趋势

  数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。

  在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互联、转换、复制、调度、监控等纳入标准化的统一管理,以适应数据仓库本身或数据源的变化,使系统更加便于管理和维护。

  在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,并作为服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。

  在数据表现方面,数理统计的算法和功能将被普遍集成到联机分析产品中,同时与Internet/Web技术紧密结合,推出适用于Intranet、终端免维护的数据仓库访问前端。在这个方面,按行业应用特征细化的数据仓库用户前端软件将形成产品,并作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备部分。

  计算机应用发展的数据仓库倾向,是数据仓库发展的推动力。传统的联机事务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能却早有需求。因此,许多事务处理系统近年来陷入一个两难的境地:在现有系统上增加有限的联机分析功能,包括复杂的报表和数据汇总操作,这样一方面严重影响了事务处理联机性能,另一方面,统计分析又因系统结构上的种种限制而不能得到充分体现。因此,应用技术是朝着更加细化、更加专业的方向发展。

  在新一代的应用系统中,数据仓库在一开始便被纳入系统设计的考虑之中,联机分析将被应用于普遍的事务处理系统之中。在数据管理上,联机事务处理和数据仓库在应用中相对独立,联机事务处理系统本身将更加简洁高效,同时分析统计也更为便利。面向行业的数理统计学向更为普遍的应用发展,并集成到应用系统的数据仓库解决方案中。它们将立足于数据仓库所提供的丰富信息,更好地为业务决策服务。

  2.市场预测

  在市场上,可以从厂商和用户两个方面看数据仓库的发展。对于提供数据仓库产品和解决方案的厂商来说,严酷的市场竞争是永恒的主题,无法提供完整解决方案的厂商,可能被其他公司收购。例如,从事数据抽取、提供专用工具的软件公司很可能并入大型数据库厂商。能够持续发展的厂商大致有两类:一是拥有强大的数据库、数据管理背景的公司;二是专门提供面向具体行业的、关于数据仓库实施的技术咨询的公司。

  从用户的角度看,数据管理的传统领域,如金融、保险、电信等行业中的特定应用,除信用分析、风险分析、欺诈检测之外,数据仓库的应用将随着现代社会商业模式的变革而进一步普及和深入。

  近年来,一场革命正在改变产品制造和服务的提供方式,它就是数字化定制经济模式。在这个世界里,用户可以购买一台根据自己要求组装的计算机、一条根据自己体形设计的牛仔裤、一种根据自己身体需要而生产的保健药、一副与自己脸型相配的眼镜……大规模的定制不仅是一种制造过程、后勤系统或者推销策略,它很可能成为企业生产的组织原则。在未来大规模定制经济环境下,数据仓库将成为企业获得竞争优势的关键武器。

阅读全文
0 0

相关文章推荐

img
取 消
img