银行数据仓库建设项目方案
下载后可任意编辑 XX银行 EDW/数据仓库项目方案 目 录 第一章 系统总体架构3 1.1 总体架构设计概述3 1.1.1 总体架构的设计框架3 1.1.2 总体架构的设计原则4 1.1.3 总体架构的设计特点4 1.2 EDW执行架构5 1.2.1 执行架构概述5 1.2.2 执行架构设计原则5 1.2.3 执行架构框架6 1.3 EDW逻辑架构13 1.3.1 逻辑架构框架13 1.3.2 数据处理流程19 1.4 EDW运维架构20 1.4.1 运维架构概述20 1.4.2 运维架构的逻辑框架21 1.5 EDW数据架构26 1.5.1 数据架构设计原则26 1.5.2 数据架构分层设计28 1.6 EDW应用架构30 1.6.1 应用架构设计原则30 1.6.2 数据服务31 1.6.3 应用服务32 第二章 ETL体系建设33 2.1 ETL架构概述33 2.2 ETL设计方案35 2.3 ETL关键设计环节35 2.3.1 接口层设计策略35 2.3.2 Staging Area设计策略35 2.3.3 数据加载策略36 2.3.4 增量ETL设计策略36 2.3.5 异常处理38 2.3.6 作业调度和监控39 2.3.7 元数据管理39 2.3.8 ETL模块设计39 2.3.9 ETL流程设计42 2.3.10 动态资源分配44 2.3.11 数据接口设计45 第一章 系统总体架构 1.1 总体架构设计概述 1.1.1 总体架构的设计框架 XX银行EDW项目的总体架构分为基础技术架构、应用架构和数据架构三个核心部分。这三个部分共同组成了XX银行EDW系统。 在基础技术架构中,包括执行架构、逻辑架构、功能组件架构和运维架构四个部分。 n 执行架构描述系统大的框架和模块区域,以及之间的逻辑关系;是确定生产环境的建设要求及指导原则。 n 逻辑架构描述EDW各个模块之间的数据的接口、数据流向、工具使用和采纳具体的技术实现手段或方式情况,用于法律规范本项目最终生产环境的建立。逻辑架构是建立应用架构、执行架构、运维架构的基础,也是建立执行架构、应用架构以及运维架构的原型系统。 n 功能组件架构描述确定系统各个大的组件组件区域的功能模块框架,以及提供的某种服务类型。 n 运维架构是描述EDW项目的运维架构标准,包括运维架构设计的内容、设计原则、各构成组件的设计考虑因素、约束、要求等。运维架构通过相应的流程和工具实现对逻辑架构、功能组件架构、执行架构、数据架构以及应用架构的运维和管理。 而数据架构和应用架构的主要描述: n 应用架构是EDW为满足业务需求所提供的系统应用功能及其蓝图设计,其中业务需求是应用架构设计的基础,最终的应用架构将以应用系统的形式体现在执行架构中,主要包括:应用服务和数据服务。 n 数据架构描述于EDW系统相关的数据流动策略,即数据在EDW系统的执行架构下的抽取、转换、储存策略以及应采纳的流程,包括数据层次和总分行之间的数据分部情况等。数据架构是建立执行架构标准的需求定义。 下图是EDW项目总体架构的框架: 1.1.2 总体架构的设计原则 n 总体架构在着重考虑实施要求的同时,需要为后续阶段进行规划,以保证项目最终能够达到目标架构的设计; n 总体架构的设计要基于包括XX银行数据现状分析、实施阶段数据源情况分析、第一阶段实施EDW设计建议做为参考; n 总体架构设计架构时充分考虑与现有系统兼容,充分利用已有成果,避开重复开发和建设。 n 总体架构设计过程中应遵守XX银行的IT管理规程,保证最终的系统可以顺利的部署并移交给XX银行的运行维护部门。 1.1.3 总体架构的设计特点 n 权衡功能、性能、可扩展性、易用性、可管理性和性价比。 n 根据XX银行的数据情况和分析需求,采纳多层次的企业EDW系统架构来保证在存在复杂的数据种类和关系的海量数据上进行业务分析和查询在业务支持能力和性能等方面的要求。 n 多级/自动的增量ETL加载机制,有效提高ETL并发度、加载效率,降低错误处理的复杂性。 n 通过用户入口支持用户采纳Web浏览器使用查询和分析工具,统一的信息服务界面,提高系统易用性,减少技术支持工作量。 n 利用企业信息集成和Web数据服务,提高系统的数据支持能力和接口的一致性。统一的数据增强平台也减少数据增强的复杂度。 1.2 EDW执行架构 执行架构的主要内容是描述EDW项目执行架构的建设要求及指导原则,用于法律规范本项目最终生产环境的建设。EDW项目的生产环境的建立需要参考并遵循执行架构部分提出的要求。 1.2.1 执行架构概述 执行架构是EDW的概念环境,主要包含:源数据、数据落地区、ETL、数据准备区、数据存储区EDW、业务应用、用户环境、数据管控、系统安全性以及EDW基础设施平台(包括:服务器、存储、网络)等功能组件。从技术层面上来说,EDW系统的执行架构应实现多种技术平台及应用之间的无缝集成。 1.2.2 执行架构设计原则 在EDW项目实施的过程中,系统执行架构的建设应遵循以下技术原则: Ø 开放性原则:EDW项目的生产环境的建设应基于业界开放标准,对系统中使用的网络协议、硬件接口、数据接口等应进行统一规划,EDW系统应支持主流的应用软件包及其部署的各种硬件平台。 Ø 灵活性与可扩展性:EDW系统的基础设施平台应能够根据未来系统的进展需要以及应用需求,方便的扩展设备容量和提升设备性能;具备支持多种组件模块、多种物理接口的能力;具备技术升级、设备更新的灵活性;具备支持业务功能的扩展与重构的灵活性。如:系统容量可以随着ETL系统数据量的扩展以及应用系统的不断扩展、用户量不断扩展而进行平滑的扩展。 Ø 高性能原则:系统应达到数据处理时间窗口的要求,用户定义的查询效率、响应时间的要求,满足业务系统的要求;对现有业务系统影响小。 Ø 自动化原则:EDW项目建设的核心任务之一是数据抽取、转换、清洗和加载(ETL),在这个过程中应采纳自动化的设计原则,避开手工操作。同时对于元数据管理过程应采纳元数据管理平台来实现对元数据集中、自动化的管理。 Ø 安全性原则:EDW项目建设中的数据迁移过程都必须保证数据的安全性,例如:在系统建设过程中应对数据中敏感字段进行安全处理、同时整个系统还应采纳网络隔离、用户身份认证及访问控制、数据库安全、操作系统安全以及完善的安全审计机制。 1.2.3 执行架构框架 上图是EDW系统执行架构,其中包含EDW系统中涵盖的功能框架以及框架之间的逻辑关系。在以下的内容中将对执行架构中的功能框架以及框架之间的关系进行详细描述,具体内容包括: Ø 数据源:包括XX银行的多个业务系统,主要有核心系统、个贷系统、信贷系统、国际业务系统、财务系统和各类渠道系统等。 Ø 数据落地区:此部分内容说明数据落地的用途,同时对数据落地区应具备的功能进行了标准定义以及数据落地区与其他功能组件之间的关联关系;