正文内容

数据仓库建设方案-文库吧

2024-05-09 05:45 本页面


【正文】 面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML、EXCEL等,也包括各个总队、支队的业务数据源。数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX层面保证了数据的完整性和及时性。信息服务主要使用两种技术来完成这一功能:联邦和复制。通过联邦功能可以把关系数据、半结构化数据(如 Excel文件、XML 文件、Web 搜索引擎、MQ 查询和内容源)组成一个逻辑数据库,对这些数据源中的表可以像操作本地数据库表一样进行操作,而不必关心我们操作的这些数据底层是什么数据源,物理在什么位置。而针对大数据量的数据访问或高并发的访问,通常将源数据增量实时复制到本地,复制的实现是基于对源数据库的日志进行捕获,获取增量数据,并基于消息的机制将其复制到目的数据库,复制的过程中可以实现数据的合并、拆分、转换等操作。信息服务总线主要完成数据的分析、清洗(标准化)、转换、加载等工作。数据清洗,主要是去除冗余数据,将零散字段合并成全局记录,并解决重叠和矛盾的数据,然后通过添加关系和层次结构完善丰富信息。首先面临的挑战就是如何更有效的识别现有的业务系统,包括业务系统使用的分类方法、层次结构、数据分布、数据字典等。如果数据字典不完整或缺失,就要通过方法找出其数据的存储结构以及各个表之间的主外键关联、各表之间的转换关系等,同样,数据的分布情况同样可以使用分析功能
点击复制文档内容
公司管理相关推荐
文库吧 www.wenkub.com
备案图鄂ICP备17016276号-1