《Kettle构建Hadoop ETL系统实践》简介
#好书推荐##好书奇遇季#《Kettle构建Hadoop ETL系统实践》,京东当当天猫都有发售。定价79元,网店打折销售其实没多少钱。Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。我们仍然以CDH作为Hadoop平台,
#好书推荐##好书奇遇季#《Kettle构建Hadoop ETL系统实践》,京东当当天猫都有发售。定价79元,网店打折销售其实没多少钱。
Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。我们仍然以CDH作为Hadoop平台,沿用相同的销售订单示例进行说明,因此可以将本书当作《Hadoop构建数据仓库实践》的另一版本。
本书内容
全书共分10章,主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术,以及Kettle并行、集群与分区技术。
为什么选用Kettle
面对各种各样的ETL开发工具,之所以选择Kettle,主要由于它的一些鲜明特性。首先,很明确的一点是,作为一款GUI工具,Kettle的易用性好,编码工作量最小化。几乎所有的功能都可以通过用户界面完成,提高了ETL过程的开发效率。其次,Kettle的功能完备。书中演示所用的Kettle 8.3版本几乎支持所有常见的数据源,并能满足ETL功能需求的各种转换步骤与作业项。第三,Kettle是基于Java的解决方案,天然继承了Java的跨平台性,只要有合适的JVM存在,转换或作业就能运行在任何环境和平台之上,真正做到与平台无关。最后,Kettle允许多线程与并发执行,以提高程序执行效率。用户只需指定线程数,其他工作都交给Kettle处理,实现细节完全透明化。
本书读者
本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。
本书作者
王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。
目录
第1章 ETL与Kettle
第2章 Kettle安装与配置
第3章 Kettle对Hadoop的支持
第4章 建立ETL示例模型
第5章 数据抽取
第6章 数据转换与装载
第7章 定期自动执行ETL作业
第8章 维度表技术
第9章 事实表技术
第10章 并行、集群与分区
更多推荐
所有评论(0)