CSDN博客

img chl033

数据库闯新世纪----施伯乐、周傲英、朱杨勇

发表于2008/9/29 9:03:00  3021人阅读

分类: 数据挖掘

 

  自1969年美国的ibm公司开发出第一个dbms系统ims以来,数据库系统便在计算机的发展过程中扮演举足轻重的角色。从层次型数据库系统到网络型数据库系统,再到现在成为数据库主流的关系型数据库系统,无不是受到业界的广泛关注。进入80年代以后,随着计算机硬件技术的提高,计算机应用不断深入,产生了许多新的应用领域,如:计算机辅助设计、计算机集成制造、地理信息系统、办公自动化等等。这些新的应用领域对数据库系统提出了新要求。出现了工程数据库、多媒体数据库、模糊数据库、地理数据库、时态数据库、知识库(亦称演绎数据库)、面向对象数据库等新型数据库的研究。可以预见,未来的数据库系统将具有演绎、面向对象和多媒体等特征。


  当今数据库的一些研究热点


  关系数据库是目前数据库的主流产品。虽然在每年召开的各种国际数据库会议仍有关于关系数据库的研究,但随着数字化信息的爆炸,硬件产品能力和网络通信等技术的迅猛发展,工业企业对数据库应用的要求越来越高,加之多年来对数据库的研究,都为数据库的研究热点提供了基础。下面就几个方面谈谈。

  1.面向对象数据库技术

  关系数据库以其完备的理论基础、简单的模型、说明性的查询语言和使用方便等得到用户好评。随着数据库的普遍使用,人们对复杂应用提出了要求,关系数据库的局限性也逐步暴露出来了,如:

  (1)模型过于简单,不便于表达复杂的嵌套需要;

  (2)支持的数据类型有限,不能支持程序设计中的许多数据结构;

  (3)宿主语言(编程语言)与操作语言分离,存在阻抗不匹配问题。

  随着面向对象程序设计语言的出现,如:c++,smalltalk等,面向对象数据库开始出现。面向对象数据库(简称oodb)是数据库和面向对象程序设计语言的结合。这些工作大致可以分为三类:

  (1)扩充关系数据库;

  (2)持久化程序设计语言;

  (3)严格的面向对象数据库系统。

  面向对象数据库系统的研究现状如下:

  (1)持久化程序设计语言当然有不少有趣的结果,但从实用来看似不可取;

  (2)严格的面向对象数据库技术,虽然有不少成果,但未达到原来预定的期望;

  (3)扩充关系数据库系统,现称对象—关系数据库系统似乎更让人们接受。

  一个面向对象数据库,除了创建类、创建对象,把类组成一个继承层次,使子类能从超类中继承属性和方法,以及调用方法来访问特定的对象,但因为oodb是一个数据库,它必须提供当今关系数据库提供的那些标准设施,而且关系数据库已在广泛使用,因此需要提供一种过度,允许和已有的rdb共存,并逐步过度到新产品。关于面向对象数据库,已提出的标准有sql3,odmg93,odmg95。

  2.知识库(演绎数据库)技术

  知识库是人工智能与数据库的结合,具体说是逻辑程序语言和关系数据库相结合的产物。著名的计算机专家j.d.ullman(stanford大学计算机系系主任)提出逻辑作为数据模型。为简单起见用horm子句表示规则,形式为:

  规则:规则头:-规则体

  对于同代人,可以这样表示:同双亲的人是同代的,若双亲是同代的,则他们的子女也是同代的。用规则表示如下:

  sg(x,y):-par(x,z),par(y,z).

  sg(x,y):-par(x,xp),par(y,yp),sg(xp,yp).

  其中,sg(x,y)表示x和y是同代人,par(x,y)表示,y是x的双亲。

  若在数据库中存储了par(x,y)的关系,则可以用上述规则从数据库中推导出所有同代人关系。

  把存储在数据库中的关系成为edb(extensional data base),用规则表示的关系称为idb(intensional data base)。对规则求值的方法有自顶向下和自底向上两类:

  自顶向下方法是从查询目标出发,通过规则不断扩展到新的目标,直到到达edb,获得证明,其扩展过程中将约束下传递。

  自底向上方法是从已知的edb事实出发,通过规则逐步导出idb事实。

  如何提高查询效率是知识库的关键,目前已经有许多查询优化方法(如魔集重写技术),减少了重复计算、减少了无关元组的计算。

  知识库研究的主要内容为:查询优化、演绎与面向对象相结合、并行分布式知识库技术和知识库应用等。

  3.多媒体数据库技术

  “多媒体”一词首次出现于1983年,意大利佛罗伦萨举行的第九届国际数据库会议vldb上,1984年第十届vldb会议和1985年国际数据库会议sigmod都举办了多媒体数据库的专题讨论。

  80年代末期不少大学和研究所开发了大量的多媒体数据库原型系统,如1986年加拿大多伦多大学开发了minos系统,1986年法国grenoble大学开发了历史多媒体数据库,1988年美国mcc开发了mini多媒体信息管理器,意大利多所大学联合开发了multos,以后几年不断有新的原型出现。

  90年代以来,多媒体技术得到了很大发展,具体如下:

  (1)声音、图像、视频和音频的采样与模/数转换及存贮问题已基本解决,为多媒体信息的计算机处理和应用提供了可能。

  (2)计算机硬件技术,特别是大容量存贮设备的商品化,网络带宽不断提高,为多媒体信息的计算机处理奠定了硬件基础。

  (3)各种独立媒体的数据库技术(如文本库、图形库、图像库等)的发展和研究为多媒体数据库提供了技术基础。

  大量多媒体应用(如超媒体系统、多媒体文档系统)的出现,推动着多媒体数据库技术的研究。

  但是,当今多媒体数据库系统原形的产品都是以某种特定应用为背景来设计系统的功能和性能,由于不同媒体物理性质各异,多媒体的应用类型也千差万别,因此多媒体主要研究问题有:

  ◇多媒体信息建模,为多媒体提供一个统一的多媒体数据模型;

  ◇多媒体数据的索引、检索、存取和组织技术;

  ◇多媒体查询语言,特别是按内容查询;

  ◇多媒体数据的簇聚、存贮、表现、传输技术;

  ◇多媒体数据库系统的有关标准。

  另外,并行数据库技术、约束数据库技术、主动数据库技术也是当今研究热点,由于篇幅所限,这里不再多说。


  面临的挑战


  进入21世纪,许多新的应用环境提出了迫切的数据管理的需求。举例如下:

  ◇万维网(www)环境中缺乏数据库技术的支持,随着www应用的日益普及,对于如此大量非标准数据的处理和管理是一个重要研究课题。

  ◇地球观测系统数据及信息系统(eosdis)是一个典型的大数据库的例子。eos是美国nasa发射的一个组卫星,目的是收集地球的信息,以支持科学家研究大气层,海洋和陆地的运动趋势。这组卫星发回地球的信息有几千万亿字节,这些数据还要与来自其它的数据和信息集成。对于这样大量的数据还要满足成千上万科技工作者的各种信息请求,提供有效的数据浏览和检索机制。

  ◇电子商务的应用中,异质信息源需有机地集成,对于分布验证和资金流动需要较高的安全措施。

  ◇在医疗、保险信息系统中,一个病人的医疗记录可能存在多个医院,协同医疗中需要集成、并发、工作流的管理。

  ◇计算机集成制造(cim)环境。cim系统是当前国际市场竞争形势下,企业赖以生存的关键,在cim环境中,各设计部门、生产部门、工程部门、行政部门都有各自的信息学系统。它们都是为完成某项制造任务时聚集在一起,有子系统的交换、协同管理,以实现高效制造,这些系统所涉及的信息结构复杂,形式多样,对管理有许多特殊要求,为此国际上制定产品数据交换标准step/express。目前,很多企业只遵循标准,规范了各自的数据交换格式,数据的存放和交换仍利用文件方式。对这种环境,研究数据库技术和系统会推动cim系统的发展。


  新世纪数据库的新方向


  为适应新的应用,数据库的研究和发展不能局限在扩展和提高dbms的功能及性能,进行进一步的研究开发是必需的。下面提出一些不很成熟的研究课题:

  (1)无模式数据库:我们知道,在通常数据库中,模式是很重要的。但在www网中,数据的结构是动态变化的,难以套用固定的模式,因此有必要研究这种元模式管理设施。

  (2)数据质量和非精确查询:在网络环境中,不同信息的质量各不相同。数据质量包括数据的时效性,完整性和一致性。如何在获得数据源的同时,捕获和处理与质量有关的源数据,是在未来的数据库应用系统中必须解决的问题。

  (3)可扩充性和组件化:目前数据库管理系统越来越大,对于处理较少规模的应用是不利的。最好的办法是采用数据库组件的方式。用户可根据不同需求,选用不同功能组件构成新的针对性的系统。数据库组件有利于实现dbms的模块构造,从而提高良好的可扩性。

  (4)数据库的易用性:在1993年爱尔兰首都都柏林举行的19届vldb会议上,m.stonebraker所作的“处于十字路口dbms研究,维也纳修改意见”表达了国际数据库专家对dbms发展方向的看法,其中终端用户界面列为最重要的研究内容,也就是说dbms的易用方法还不够。随着计算机发展,数据库的非专业用户越来越多,当前的dbms不能适应的主要原因在易用性方面还不够。

  (5)新的事务模型:以前在dbms中的事务处理,为了解决并发处理,事务理解为小单位,但是在长事务的处理有较大的困难。在网络迅速发展的环境中,并发的事务可能很多,且并发用户在地理上分布很广,以往的2pl协议往往很难适应,因此新的事务应该允许嵌套,还应允许用户介入事务管理。

  (6)查询优化:在未来的环境中数据库的类型会变得非常复杂、优化中考虑的因素会很多,如针对这类数据类型进行优化,设计索引方法和查询策略,而且,在优化过程中数据的精确性及完整性等因素。

  (7)数据迁移:在分布环境中,特别在并行处理中,数据迁移是重要的研究内容。它的优化要考虑通讯代价,中间结点的高速缓存等因素,以达到整体上的优化。

  (8)安全性:在网络环境中,允许各种用户相互访问,对数据的安全性更显得重要。目前dbms的安全性很大程度上依赖于模式,在未来的应用中数据可能是元模式的,因此需要研究新的授权方法。

  (9)数据挖掘:数据挖掘是目前发展迅速的一个研究方向。它综合了机器学习,统计分析和数据库技术,是为决策者服务的。在未来的环境中数据量非常巨大,如何找出数据中的规律,为决策者提供有效的信息,包括并联规则的生成、分类、序列分析等,是一个很有应用价值的重要研究方向。

0 0

相关博文

我的热门文章

img
取 消
img