佳工机电网 在线工博会 我的佳工网 手机版 English
关键字  
  选择展区 >>
您的位置: 首页 > ERP/制造业信息化展区 > CIO信息化管理展厅 > 产品库 > BI商业智能 > 技术论文 > 正文 产品库 会展 人才 帮助 | 注册 登录  
CIO信息化管理
 按行业筛选
 按产品筛选
查看本类全部文章
e展厅 产品库 最新动态 技术文章 企业目录 资料下载 视频/样本 反馈/论坛
  技术应用 | 基础知识 | 外刊文摘 | 业内专家 | 文章点评 投稿 发表科技文章 
基于可复用构件思想的ETL架构设计
newmaker
欢迎访问e展厅
展厅
3
CIO信息化管理展厅
电子商务/企业门户, IT运维管理, 制造执行系统MES, 流程管理BPR/BPM, SOA/SaaS/云计算, ...
数据仓库的数据来源常包含着噪声数据、不完整数据、甚至是不一致的数据。为了得到高质量的数据,必须对抽取(Extract)出来的原始数据做一系列复杂转换(Transform)处理,最后装载(Load)到数据仓库中。这种从原始数据到数据仓库之间,对数据进行的操作称为ETL过程,其工作量大约占系统的60%,实现ETL过程的效率和质量很大程度上决定了数据仓库系统的构建效率和质量。目前研究ETL过程都是集中于个案的研究,强调ETL系统的可扩展性和灵活性,对于如何在类相似或相近的数据仓库项目中共享ETL过程的研究则很少,很大程度上阻碍了数据仓库项目建设效率的进一步提高。如何在一类相似或相近的数据仓库项目中发现其共同特征、知识和需求,使得ETL过程可以在这些数据仓库项目中被反复使用,大幅度提高实现ETL过程的效率,从而提高数据仓库构建的效率,研究该问题具有一定理论意义及实用价值。

基于可复用构件思想的ETL架构设计

设计思想

基于构件技术的软件复用提倡以已有的工作为基础,充分利用过去工作中积累的知识和经验,将已经辨识的具有相对独立功能的构件应用于新系统的开发,保证新系统开发的过程中,能够将重点集中于辨识和实现应用系统特有的构成成分,最终缩短系统开发周期,提高系统的质量。

基于构件技术的软件复用的核心思想包括如下几个方面:

(1)构件化设计。通过系统地分析一类相似或相近的数据仓库项目,识别出其共同特征和可变特征,并对这些特征进行抽象,形成领域分析模型,并据此进一步识别出可复用的构件。

(2)层次化设计。层次化设计可以提高系统的可扩展性和可维护性。通过层次化设计可以将所有识别的构件按一定的规则(如抽象级别、处理对象和处理的功能)分类管理,然后以分层的形式来组织,进而确定不同层构件之间的交互方式,保证每个构件的变化只涉及它的邻近两层的相关构件,实现系统一定程度上的开放性。

(3)接口化设计。不同层次的构件之间需要沟通,沟通需要规范,通过规范的接口可实现构件之间沟通的规范化。接口只制定规范,具体实现交由构件内部完成。接口化设计将构件的差异放到实现阶段,而不是在设计阶段,使得设计阶段可以致力于软件架构设计的完整性和复用性,使得不同系统之间处理的差异通过替换构件而无需变动架构就可得到解决。

ETL架构模型设计

基于可复用构件思想的ELT架构(如图1所示)主要分成基础服务层、抽取层、集成转换层、特殊处理层四个层次,每个层次的功能如下所述。

1、抽取层

抽取层构件位于ETL架构的最底层,直接面对数据源,完成数据抽取阶段的工作。鉴于数据仓库数据源差异性大的特点,这个层的ETL构件在不同数据仓库间差异很大,可重用程度总体上比较低。

2、集成转换层

集成转换层构件主要将抽取层抽取的数据转换成格式规范、含义统一、质量良好的数据,并集成到数据仓库中。由于是在两个层接口构件之间,所以集成转换层构件的输入和输出都要满足层间接口构件的约定,在相似数据仓库项目之间的差异主要体现在业务处理规则上。集成转换层为每类数据对象提供一类ETL处理构件,同层构件之间相对独立,通过抽象各个相似数据仓库项目业务规则,将其封装在构件内,保证ETL架构在相似数据仓库之间移植时,只要通过配置业务规则,ETL构件即可投入使用。

3、特殊处理层

为了保证后续功能开发者可以将注意力放在功能关注的指标上,而不要关心指标的具体口径,更不要担心指标口径变化和指标口径在相似数据仓库项目之间的差异对功能移植造成不利影响,在集成转换层构件处理的基础上,专门增加了特殊处理层,负责将数据仓库中按流水交易形式组织的数据换算成按KPI组织的形式。

4、基础服务层

为了给ETL提供一个相对稳定和灵活的架构,在元数据管理的构件识别的基础上引入了基础服务层,扩展了传统意义上的元数据管理的功能,包含元数据管理构件、层间接口构件、KPI自动测试构件三大类:这些构件构成了ETL基础和骨架,为系统的稳定性和适应性奠定了基础。

(1)元数据管理构件。元数据是关于数据的数据,元数据管理构件主要完成ETL子系统中元数据管理模块的功能,具体分成三小类,分别是负责维护数据仓库架构的维护类构件、负责维护业务规则的维护类构件和调度类构件。

(2)层间接口构件。为了在各个数据仓库项目之间平稳的移植ETL,在此设计了层间接口构件。从抽象层面上为各数据仓库项目提供一个相同的ETL处理框架,为ETL处理过程各层次的各种功能构件提供接口,实现构件具体处理过程对架构的透明化,为系统功能扩展留下了余地。

(3)KPI(关键绩效指标)自动测试构件。测试无疑是保证系统质量的一个重要方法,ETL也不例外,但是,ETL过程测试和一般的软件测试在测试过程、测试方法、评价标准等方面都有比较大的不同,它是一个非常繁琐、工作量巨大、有一定规律的过程。

从抽象层面上看,一类相似或相近的数据仓库项目每个KPI(关键绩效指标)的维度组合是相对固定的,测试标准和过程是一致的,所以,在ETL架构中,专门提供了KPI自动测试类构件,为每类KPI提供一个自动测试构件,其基本处理逻辑如图2所示。

该类构件能够快速发现ETL架构中集成层和转换层中相关构件数据处理过程中隐藏的问题,从而降低ETL过程测试的难度和工作量,大幅度提高ETL架构的效率和质量。(end)
文章内容仅供参考 (投稿) (如果您是本文作者,请点击此处) (10/3/2010)
查看更多BI商业智能相关文章: more
·采用数据可视化平台降低BI管理复杂性 newmaker (9/29/2010)
·浅析商业智能在电子商务中的应用 newmaker (9/28/2010)
·如何在客户的ERP环境中实现BI仓库 newmaker (2/6/2010)
·管理信息系统中的数据仓库及存储 newmaker (2/6/2010)
·商业智能在电信行业的应用 newmaker (2/6/2010)
·移动商业智能 newmaker (2/6/2010)
·商业智能与移动CRM newmaker (2/6/2010)
·商业智能与基于位置的移动服务 newmaker (2/6/2010)
·商业智能与移动学习 newmaker (2/6/2010)
·商业智能与知识管理的关系 newmaker (2/6/2010)
查看更多CIO信息化管理相关文章: more
·推动遗留系统现代化革新的三种方式 Taylor Bornstein (3/27/2022)
·食品物流服务提供商Farm Trans借助Mendix解决方案构建高效欧洲供应链 Mendix (9/16/2021)
·采用数据可视化平台降低BI管理复杂性 newmaker (9/29/2010)
·炎黄盈动业务流程管理(BPM)全面解决方案 炎黄盈动 (9/29/2010)
·为管理者提供基于角色的最佳BPM newmaker (9/29/2010)
·电子商务:线上与线下冲突解决之道 (9/29/2010)
·流程管理中的流程表单优化 newmaker (9/29/2010)
·选择远程基础架构管理的3大理由 newmaker (9/29/2010)
·浅析商业智能在电子商务中的应用 newmaker (9/28/2010)
·实施SaaS应该注意什么? newmaker (9/26/2010)
查看相关文章目录:
·ERP/制造业信息化展区 > CIO信息化管理展厅 > BI商业智能 > CIO信息化管理文章
文章点评 查看全部点评 投稿 进入贴吧


对 CIO信息化管理 有何见解?请到 CIO信息化管理论坛 畅所欲言吧!


网站简介 | 企业会员服务 | 广告服务 | 服务条款 | English | Showsbee | 会员登录  
© 1999-2024 newmaker.com. 佳工机电网·嘉工科技