持续提高数据仓库的数据质量

经过14年的发展,上海浦东发展银行(下称“浦发行”)已经建立了相对完整的以客户为中心、数据集中的各类业务系统,主要包括核心业务系统、外挂应用系统、外围渠道服务系统、SAP系统。但由于这些系统分散在不同的应用平台上,缺少必要的手段对客户、产品、风险、绩效进行有效的分析和管理。随着银行逐步从粗放式经营管理向精细化经营管理转变,这方面的矛盾日益突出。浦发行通过

维普资讯 http://www.mianfeiwendang.com

持续古据仓库的数据质量 -同 l数:日 上海浦东发展银行南京分行侯波

经过 l 4年的发展,上海浦东发展银行 (下称“浦发行”已经建立了相对完整的以客户为中心、 )数据集中的各类业务系统,主要包括核心业务系统、外挂应用系统、 外围渠道服务系统、A S P系统。但由于这些系统分散在

2数据质量问题的来源 .通常而言,数据质量问题可以分为源业务系统数据质量问题、代码映射问题和 E L E t c、rnf m、 T ( x atTa s r r o La, od抽取、转换、加载 )数据质量问题。 源业务系统数据质量问题指作为数据仓库数据源的各个业务系统自身的数据质量问题。 代码映射指为了用统一的视图对各个业务系统的数据进行分析,把各个业务系统的代码归类映射到数据

不同的应用平台上,缺少必要的手段对客户、产品、风险、绩效进行有效的分析和管理。随着银行逐步从粗放 式经营管理向精细化经营管理转变,这方面的矛盾日益突出。浦发行通过建设企业级数据仓库系统,整合了各个业务系统的信息,为全行管理及分析应用提供平台支 撑。

仓库编码。代码映射错误将导致数据仓库分类统计结果 的错误。

数据仓库服务于经营决策,营决策依据的数据更经应是完整、准确、一致的。如果数据仓库的数据质量不能

代码映射问题可分为以下几类:数据仓库编码不完整,不能覆盖所有业务代码;代码映射不准确;各业务系统代码发生变化,数据仓库未同步调整。 E L据质量问题是指在把数据从业务系统抽取、 T数 转换、加载到数据仓库过程中或者从数据仓库到分析系

得到保证,会严重降低数据仓库的使用率和可信度,还 可能给决策分析带来灾难性的后果。

数据质量分析

统过程中,产生的数据缺失、数据错误等数据质量问题。 源业务系统的数据质量问题是最值得关注的问题,

1数据质量定义 .

因为该类的数据质量问题在数据生成阶段产生,并且较

数据仓库对数据质量的要求包括:数据的完整性、 数据的准确性、数据的一致性。 完整性指所有信息、属性是否按照业务规则完整填写,包括数据源是否完整、数据取值是否完整、维度取值

难更正。而代码映射问题和 E L T数据质量问题则在数据 仓库的 E

L阶段产生, T可以通过相应的技术手段发现并 更正。

3数据质量问题的现状 .浦发行数据仓库的数据质量从总体来讲是好的,数据质量问题主要暴露在源系统数据质量问题方面,特别是源系统代码解释不完整这个问题上,其分类如表 1所 示。

是否完整等。准确性指信息是否满足域定义的要求,包 括数据源是否准确、编码映射关系是否准确、理逻辑处是否准确等。一致性指不同系统、同业务之间关联的不数据是否一致,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,据仓库内部各处理环节数

() 1数据完整性问题

数据是否一致等。

①源应用系统数据填写不完整 中国金融电脑 2 0年第 6 9 07期 6

持续提高数据仓库的数据质量

Word文档免费下载Word文档免费下载:持续提高数据仓库的数据质量 (共1页,当前第1页)

你可能喜欢

  • 银行数据仓库
  • oracle数据仓库
  • 实时数据仓库
  • 税务数据仓库
  • 数据仓库解决方案
  • 数据仓库论文
  • 数据仓库设计
  • 数据仓库技术

持续提高数据仓库的数据质量相关文档

最新文档

返回顶部