元数据管理与数据质量平台
精品文档---下载后可任意编辑 1.1.1 数据质量管理架构 数据质量问题一直是困扰数据仓库发挥积极作用的重要因素,在数据仓库建设之初就应当从战略角度对数据质量体系进行规划。 1.1.1.1 数据质量根底定义 1.1.1.1.1 完整性 数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是否覆盖各个方面。例如:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。例如,客户名称有姓无名等,客户档案是否齐全,是否客户所有业务都包含在内等。 完整性破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。 完整性列表: 数据完整性,例如属性数据是否残缺,数值类型数据是否有空数据 业务完整性,例如是否有些业务没有包含在内,是否涵盖所有生产系统和必要的外部数据〔例如竞争数据,保监会数据〕,是否覆盖所有客户〔例如是否覆盖全部客户〕 设计完备性, 设计是否完善 模型的完备性 数据字典完备性 映射关系完备性 业务规那么是否完备 元数据完备性 加工层次完整性,加工过程中重要的中间数据是否保存,例如,有月统计数据,考察日数据是否存在? 粒度完整性,重要经营指标各个粒度数据应该完善 1.1.1.1.2 有效性 指数据包含了一个有效的数据格式或值 1.1.1.1.3 一致性 数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是争取解决这个问题。一致性定义为各个系统数据的统一,定义为数据仓库系统内数据定义的统一。 一致性还表现在定义和口径的一致性。 数据库一致性,设计上是否有多种存储并存,各类统计口径是否统一 冗余和星型模型以及非第三范式一致性保证措施 和源数据一致性 1.1.1.1.4 唯一性 唯一性定义为系统数据定义的唯一性。由于数据仓库技术不一定受第三范式约束,可能具有相当的冗余,但数据冗余不能违反定义的唯一性原那么。对于哪些既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意,因为极容易由于生成的时间差造成不一致。唯一性至少应当向系统的用户说明最终的数据评判标准,数据的冗余和评判应当是元数据管理的重要内容。 1.1.1.1.5 正确性 数据正确是决策的关键,数据不正确,数据仓库工程就等于失败。但数据的正确性难以通过自身检查。应该对重要数据和重要统计设立正确性检查。主要方法是: Ø 数据自身统计检验 Ø 纵向比照检验 Ø 数据间按逻辑交叉检验 Ø 横向比照校验 主要检查的内容: ETL过程正确性 加工过程正确性 数据整合正确性 模型正确性 展现正确性 查询正确性 核对过程是否充分 1.1.1.1.6 准确性 数据的正确性根底上才有意义讨论准确性。准确性包括精度和近似规那么。 精度:系统定义的数据必须满足的精确性要求。例如,客户生日,可以精确到年,或月,或日;全局收入统计或许到万元即可,也许到角分。 1.1.1.1.7 可用性 数据的可用性不是一个简单数据质量问题,而是系统质量问题,所有质量因素都可能影响到可用性。数据的可用性主要表达在使用的效率上 1.1.1.1.8 时效性 1.1.1.1.9 清楚性 数据的清楚性考验系统元数据的精度。元数据必须清楚定义每一个数据的来龙去脉。必须没有歧义。 1.1.1.1.10 充足性 数据的充足性定义在保证数据正确性和准确性根底上是否能对主要业务专题提供足够的数据进行足够精度的分析需求。例如,进行时间序列分析通常需要至少36个连续时间单位的数据,是否能够提供这个时间序列。 数据积累是否足够广泛,例如设计上虽然包含了足够宽广的业务领域,但每项业务的数据是否真的收集到了足够多, 数据积累是否足够时间,充足性的特别情况,是否收集了足够时间长度的数据 元数据和字典数据的充足性,描述性是否足够 1.1.1.2 数据质量保证框架 1.1.1.2.1 战略 战略 – 从企业战略方向主动的考虑数据质量状况。 战略的意义: Ø 提供了战略上的、可操作的数据质量保障方向 Ø 识别企业数据的关键因素 Ø 指明数据质量的范围 战略的范围: Ø 策略:包含以下方面的内容, ² 任务定义 ² 与业务的关系 ² 切入点 ² 约束条件 ² 可行性 Ø 关键方法:包含以下方面, ² 方向 ² 使标准化 ² 保障策略被顺利执行的手段 Ø 变更管理:为了适应企业变更而实行相应的数据质量管理变更机制 1.1.1.2.2 组织 组织 – 为了达成企业的数据质量目标,从企业行政管理以及职能设置上进行考虑 。 组织指的是如何组织相应的人员、设立相应的数据质量机构对数据质量进行管理,包含以下方面: Ø 组织机构规划 Ø 人员及其职责设计 Ø 制定考核制度 1.1.1.2.3 管理 管理 – 对于企业中元数据以及业务规那么的维护上予以管理 管理包含以下范畴: Ø 定义完整的元数据集 Ø 定义无二义性、易于理解的业务规那么 Ø 建立一个健壮的、高可扩展的数据模型 1.1.1.2.4 架构 架构 – 从整体上(数据、应用程序、技术架构)对改良数据质量予以考虑 架构的建立应从以下方面进行考虑: Ø 数据架构 Ø 应用程序架构 Ø 根底架构 1.1.1.2.5 过程 过程 – 过程的改良 过程关注的是数据质量管理的过程,应从以下方面进行考虑: Ø 数据质量管理的实施过程 Ø 过程控制点以及控制路线 Ø 〔错误或异常的〕补救措施 1.1.1.2.6 验证 验证 – 定义数据质量的评测标准并按所制定的标准对其进行验证,只有确立相应标准,数据质量的控制才具有现实意义。 验证包含以下内容: 1.1.1.2.6.1 数据的重要程度,可以从以下方面进行推断: ² 对日常操作的影响 ² 对一般业务的影响 ² 对财务上的影响 ² 对客户效劳的影响 ² 对决策的影响 1.1.1.2.6.2 数据质量维度--数据质量问题域汇总 序号 数据质量问题 细目 备注 1 完备性 是否涵盖所有生产系统和 必要的外部数据 是否涵盖所有业务 是否覆盖所有客户 是否覆盖所有产品 系统设计完备性 数据字典完备性 映射关系完备性 业务规那么是否完备 元数据完备性 2 完整性 数据完整性 业务完整性 数据模型完整性 加工层次完整性 粒度完整性 3 充足性 对问题域的解决方案是否有足够的数据作为分析根底 数据积累是否足够广泛 数据积累是否足够时间 元数据和字典数据的充足性 4 正确性 ETL过程正确性 加工过程正确性 数据整合正确性 模型正确性 展现正确性 查询正确性 核对过程是否充分 5 准确性 数据精度是否足够 近似模型是什么 6 一致性 数据库一致性 主键,外键完整性 冗余和星型模型以及非第三范式一致性保证措施 和源数据一致