来源:数据仓库生命周期工具箱中第九章,(美) Ralph Kimball
其是我是来水博客的,这个ETL也还刚开始学呢,第一次用Window Live Writer来写博客感觉还不错。
ETL来自于三个单词Extract(E,提取),Transform(T,转换),以及Load(L,装载),代表着三个不同的步骤。
ETL的设计和开发是DW/BI(DW for Data Warehouse,即数据仓库;BI for Business Intelligence,商业智能)项目团队中最令人头疼的问题,通常会花费70%的时间和工作量。
ETL三个步骤包括了:
1、将数据从它在原系统中的位置取出来(E);
2、对取出来的数据进行一些转换(T);
3、将数据装载(L)到最终的表集合中供用户查询。
在对数据进行ETL时,会有很多的约束:
1、业务需求;
2、源数据系统;
3、预算;
4、处理窗;
5、现有职员的技能。
ETL中会设计到的有:
表、模块、过程、脚本、触发器、警报和作业调度。