大數(shù)據(jù)組件及案例實踐

課程介紹
課程收益
課程大綱
開班信息

課程介紹

現(xiàn)今是大數(shù)據(jù)時代，為構建大數(shù)據(jù)平臺，技術人員需要對分布式計算平臺有一定深入的理解和應用。本課程將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程，涉及Spark Hadoo系統(tǒng)基礎知識，概念及架構，Spark Hadoo實戰(zhàn)技巧，Spark、Hadoo經(jīng)典案例等。

培訓對象

學員須具備：了解Linux系統(tǒng)及相關語言環(huán)境；
各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。

課程收益

幫助學員對Spark、Hadoo生態(tài)系統(tǒng)有一個清晰明了的認識；
理解Spark、Hadoo系統(tǒng)適用的場景；
掌握Spark、Hadoo等初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Spar、Hadook集群，滿足生產(chǎn)環(huán)境的標準。

知識概要

-- 大數(shù)據(jù)整體體解決方案架構介紹；
-- Cloudera CDH安裝及集群介紹；
-- Kafka的使用場景；
-- HDFS HIVE IMPALA組件；
-- HIVE、IMPALA區(qū)別：特性不同點,架構不同特點；
-- Zookeeper組件；
-- Azkaban、Yarn 調(diào)度資源協(xié)調(diào)；
-- yarn架構組件(Resourcemanager、NodeManager、ApplicationMaster)；
-- yarn作業(yè)調(diào)度流程；
-- 大數(shù)據(jù)安全管理；
-- Hadoop安全機制Kerberos。

課程大綱

模塊

學習內(nèi)容

第一天AM

大數(shù)據(jù)整體體解決方案、架構介紹、流處理、批處理

硬件選型，操作系統(tǒng)選型

開源軟件，Hadoop生態(tài)軟件

大數(shù)據(jù)組件（開發(fā)語言介紹）

Cloudera CDH安裝及集群介紹

Cloudera CDH 安裝

Hadoop集群介紹，Hadoop集群使用

HDFS分布式文件系統(tǒng)介紹

Kafka的使用場景

Kakfa的設計思想，Kafka文件存儲機制

持久化\負載均衡\Topic模型

消息傳輸一致性\分布式

Leader的選擇\集群分區(qū)

生產(chǎn)者消費者配置

案例：Kafka從flume獲取消息，實現(xiàn)傳輸

flume+sqoop介紹及開發(fā)實例

flume實現(xiàn)數(shù)據(jù)采集流程

flume agent配置，flume sink配置，flume 數(shù)據(jù)過濾

案例(1)：使用flume動態(tài)采集日志

Sqoop功能及軟件結(jié)構

從關系型數(shù)據(jù)庫導入數(shù)據(jù)到HDFS，從HDFS導入數(shù)據(jù)到關系型數(shù)據(jù)庫

第一天PM

案例：從HDFS導入數(shù)據(jù)到MySQL數(shù)據(jù)庫

案例：從MySQL數(shù)據(jù)庫導入數(shù)據(jù)到HDFS

Hadoop集群搭建、Spark集群部署及測試

Spark交互式命令行

如何使用Spark交互式命令行、理解Spark任務提交流程、執(zhí)行流程

如何通過WebUI查看任何執(zhí)行狀態(tài)

spark streaming運行原理spark 生態(tài)及運行原理

集群模式

Spark工作機制

RDD彈性分布式數(shù)據(jù)集，介紹RDD實現(xiàn)原理

理解什么是Action和Transformation，理解窄依賴與寬依賴

Spark核心概念之RDD

RDD函數(shù)

Spark核心概念之Shuffle

Spark Job執(zhí)行原理分析、shuffle操作解析

Spark核心概念之Cache

Spark廣播變量與累加器、Cache與checkpoint問題

Spark多語言編程

第二天AM

Spark SQL組件、架構

DataFrame、SparkSQL運行原理

Spark SQL基礎應用

Spark Streaming運行原理、DStream

DStream 常用函數(shù)

Machine Learning On Spark簡介、常用數(shù)據(jù)結(jié)構

Spark 資源調(diào)優(yōu)

案例：spark streaming數(shù)據(jù)處理

HDFS HIVE IMPALA組件

DHFS分布式存儲特性

DHFS訪問方式

HDFS優(yōu)化方案

HIVE IMPALA查詢

共同點：如數(shù)據(jù)表元數(shù)據(jù)、ODBC/JDBC驅(qū)動、SQL語法、靈活的文件格式、存儲資源池等

HIVE、IMPALA區(qū)別：特性不同點,架構不同特點

第二天PM

Zookeeper組件

Zookeeper應用

Zookeeper注冊中心管理

Zookeeper配置與協(xié)調(diào)

實驗：HDFS存取數(shù)據(jù)、HIVE、IMPALA實現(xiàn)數(shù)據(jù)分析和報表

Azkaban、Yarn 調(diào)度資源協(xié)調(diào)

Azkaban的適用場景

Azkaban特點

Azkaban的架構

配置文件

啟動executor服務器

啟動web服務器

案例：多job工作流案例

yarn架構組件(Resourcemanager\NodeManager\ApplicationMaster)

yarn作業(yè)調(diào)度流程

綜合案例

Flume實現(xiàn)日志采集+kafka（消息隊列、緩存）+spark streaming（數(shù)據(jù)處理）+數(shù)據(jù)庫/DHFS

sqoop 導入關系型數(shù)據(jù)庫，實現(xiàn)hive impala查詢

大數(shù)據(jù)安全管理

Apache Sentry

Hadoop安全機制Kerberos

認證過程

無認證考試

開班信息

暫無開班信息

課程

大數(shù)據(jù)組件及案例實踐

課程介紹

培訓對象

課程收益

知識概要

課程大綱

認證過程

開班信息

相關課程

021-63530102

請留下聯(lián)系方式，我們會和您取得聯(lián)系

課程

大數(shù)據(jù)組件及案例實踐

課程介紹

培訓對象

課程收益

知識概要

課程大綱

認證過程

開班信息

相關課程

021-63530102