王家林的云计算分布式大数据Hadoop数据库管理员企业级动手实践

一:课程介绍

   数据库管理人员如何管理分布式的海量数据,是云计算时代的数据库从业人员面临的核心问题之一,Hadoop提出了解决方案。

   本课程从数据库管理人员与系统管理人员的职业角度出发,从动手搭建Hadoop集群环境开始,涉及Hadoop集群的配置、维护、管理、监控、运维、测试、优化等主题,并细致剖析Hive数据仓库集群和优化等主题,帮助传统的数据库管理人员和系统管理人员轻松使用Hadoop架构大规模的数据。

二:课程特色

1,     深入理解Hadoop技术架构;

2,     彻底全面清晰的理解Hadoop运作机制;

3,     能够独立规划及部署生产环境的Hadoop集群;

4,     掌握Hadoop基本运维思路和方法;

5,     对Hadoop集群进行管理和优化;

 

三:适合对象:

     数据库管理员(DBA);

   公司的系统管理员;

   想转型的DBA;

四:基础要求

     了解Linux系统;

   了解网络;

   了解 shell sql python 等脚本语言的一种;   

五:讲师简介

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发中国电信的多次Hadoop培训,花旗银行的Hadoop内训,金立手机的Hadoop内训等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;     

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

   

 

六:培训内容

 

时间

内容

备注

第一天 (集群安装和管理)

第1个主题:Hadoop的来源和动机

1.传统大规模系统存在的问题

2.对一种新的解决方案的需求

 

第2个主题:Hadoop安装和部署准备

  1.   Hadoop系统模块组件概述
  2.   Hadoop试验集群的部署结构
  3.   Hadoop   安装依赖关系
  4.   Hadoop   生产环境的部署结构

 

第3个主题:Hadoop集群安装和部署

  1.   Red   hat Linux基础环境搭建 上机实验
  2.   Hadoop   单机系统版本 安装配置 上机实验
  3.   Hadoop   集群系统版本 安装和启动配置 上机实验
  4.   Hadoop   集群异常Debug 方法
  5.   Hadoop   集群简单测试方法
  6.   使用 Hadoop MapReduce Streaming 快速测试系统

 

第4个主题:Hadoop组件详解

  1.   Hadoop   HDFS 基本结构
  2.   Hadoop   HDFS 副本存放策略
  3.   Hadoop   NameNode 详解
  4.   Hadoop   SecondaryNameNode 详解
  5.   Hadoop   DataNode 详解
  6.   Hadoop   JobTracker 详解
  7.   Hadoop   TaskTracker 详解

 

第5个主题:Hadoop集群配置详解

  1.   Hadoop   core-site,hdfs-site,mapred-site 配置详解

2. Hadoop 高可用配置方法

 

时间

内容

备注

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天(集群优化和管理)

第1个主题:Hadoop集群配置:机架感知,开启压缩和任务均衡

  1.   Hadoop   集群安装和开启LZO压缩
  2.   Hadoop   配置集群具备机架感知
  3.   Hadoop   集群开启公平任务调度器
  4.   Hadoop   集群开启能力任务调度器

 

第2个主题:Hadoop 集群维护与管理

  1.   查看集群状态
  2.   HDFS数据管理
  3.   Mapreduce   任务管理
  4.   HDFS安全模式
  5.   模拟集群Namenode,jobtrack失效
  6.   添加删除节点
  7.   数据平衡
  8.   文件数据跨集群拷贝
  9.   集群升级

 

第3个主题:Hadoop 集群规划和测试

  1.   集群规划(硬件,系统,网络)

2. 集群性能测试

 

第4个主题:Hadoop 集群监控和运维

1. 使用Ganglia 监控Hadoop集群

2. 使用Cacti 监控操作系统

 

第5个主题:Hadoop HDFS高可用

  1.   Hadoop   元数据NFS备份方案

2. Hadoop SecondaryNameNode备份方案

3. Hadoop CheckpointNode备份方案

4. Hadoop BackupNode备份方案

5. Hadoop Cloudera HA Namenode 方案

 

时间

内容

备注

第三天(Hive数据仓库)

第1个主题:Hive仓库集群

  1.   Hive的作用和原理说明
  2.   仓库和传统数据仓库的协作关系
  3.   Hadoop/Hive仓库数据数据流
  4.   Hive   部署和安装
  5.   Hive   Cli 的基本用法
  6.   HQL基本语法

 

第2个主题:Hive仓库集群高级

  1.   使用JDBC 连接Hive进行查询和分析
  2.   使用正则表达式加载数据
  3.   HQL高级语法
  4.   编写UDF函数
  5.   编写UDAF自定义函数

 

第3个主题:Hive仓库优化

  1.   使用Hive分区优化查询
  2.   使用Lzo压缩优化数据存储容量
  3.   HiveServer   HA (使用haproxy提高HiveServer可用性)
  4.   编写Hive自定义MapReduce脚本优化查询
  5.   Hive数据倾斜和查询性能优化

 

第4个主题:Hive仓库外围系统

  1.   使用Sqoop进行数据分析
  2.   使用oozie配置工作流
  3.   phpHiveAdmin   安装和使用

 

 

 

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。