課程介紹
本課程對Spark的不同版本源碼徹底研究基礎(chǔ)之上提煉而成,涵蓋Spark所有內(nèi)核精髓的剖析和大量的核心源碼解讀,帶您深入了解Spark內(nèi)核機制和核心優(yōu)化技巧,商業(yè)級別Spark項目的架構(gòu)設(shè)計、實現(xiàn)和優(yōu)化。并通過商業(yè)實戰(zhàn)案例真正了解Spark的規(guī)劃、部署、開發(fā)和管理技術(shù)。
培訓對象
云計算大數(shù)據(jù)從業(yè)者;
Hadoop使用者;
系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員;
牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運行、規(guī)劃、設(shè)計負責人;
政府機關(guān),金融保險、移動和互聯(lián)網(wǎng)等大數(shù)據(jù)來源單位的負責人;
高校、科研院所涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項目負責人;
數(shù)據(jù)倉庫管理人員、建模人員,分析和開發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫管理及對數(shù)據(jù)倉庫感興趣的其他人員。
課程收益
了解Spark內(nèi)核機制和核心優(yōu)化技巧;
實現(xiàn)商業(yè)級別Spark想的架構(gòu)設(shè)計;
通過案例了解Spark的規(guī)劃和部署。
知識概要
-- Spark生態(tài)介紹;
-- Spark安裝部署;
-- Spark運行架構(gòu)和解析;
-- Sparkscala編程;
-- Spark編程模型和解析;
-- Spark 數(shù)據(jù)挖掘;
-- Spark Streaming原理和實踐;
-- Spark的優(yōu)化;
-- Spark的數(shù)據(jù)源;
-- Spark Streaming應(yīng)用及案例分析;
-- 典型項目案例實戰(zhàn)。
課程大綱
Spark生態(tài)介紹
Mapreduce、storm和spark模型的比較和使用場景介紹
Spark產(chǎn)生背景
Spark(內(nèi)存計算框架)
SparkSteaming(流式計算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel將被代)
DlinkDB介紹
SparkR介紹
Spark安裝部署
Spark安裝簡介
Spark的源碼編譯
Spark Standalone安裝
Spark應(yīng)用程序部署工具spark-submit
Spark的高可用性部署
Spark運行架構(gòu)和解析
Spark的運行架構(gòu)
基本術(shù)語
Spark on Standalone運行過程
Spark on YARN 運行過程
Spark運行實例解析
Spark on Standalone實例解析
Spark on YARN實例解析
比較 Standalone與YARN模式下的優(yōu)缺點
Spark scala編程
Scala基本語法與高階語法
Scala開發(fā)環(huán)境搭建
Scala開發(fā)Spark應(yīng)用程序
使用java編程
使用python編程
Spark編程模型和解析
Spark的編程模型
Spark編程模型解析
RDD的特點、操作、依賴關(guān)系
Spark應(yīng)用程序的配置
Spark的架構(gòu)
spark的容錯機制
數(shù)據(jù)的本地性
緩存策略介紹
寬依賴與窄依賴
Spark 數(shù)據(jù)挖掘
Mllib的介紹
graphX核心原理
table operator和graph operator區(qū)別
vertices、edges和triplets介紹
構(gòu)建一個graph
SparkR原理
SparkR實戰(zhàn)
Spark Streaming原理和實踐
Spark Streaming與Strom的區(qū)別
Kafka的部署
Kafka與Spark Streaming的整合
Spark Streaming原理
Spark流式處理架構(gòu)
DStream的特點
Dstream的操作和RDD的區(qū)別
帶狀態(tài)的transformation與無狀態(tài)transformation
Spark Streaming的優(yōu)化
Spark Streaming實例
Streaming的容錯機制
streaming在yarn模式下的注意事項
對于需結(jié)合第三方存儲機制的與流式處理方案
文本實例
網(wǎng)絡(luò)數(shù)據(jù)處理
Kafka+Spark Streaming實現(xiàn)日志的實時分析案例
Spark的優(yōu)化
序列化優(yōu)化 — Kryo
Spark參數(shù)優(yōu)化實戰(zhàn)
Spark 任務(wù)的均勻分布策略
Partition key傾斜的解決方案
Spark任務(wù)的監(jiān)控
GC的優(yōu)化
Spark Streaming吞吐量優(yōu)化
Spark RDD使用內(nèi)存的優(yōu)化策略
Spark在使用中的感想分享
Spark的數(shù)據(jù)源
Spark與HDFS的整合
HDFS RDD原理和實現(xiàn)
Spark與Hbase的整合
Spark與Cassendera整合
Hbase RDD的分區(qū)讀取
Hbase RDD的原理和實現(xiàn)
Spark parallelism RDD的工作機制
Spark Streaming應(yīng)用及案例分析
Spark Streaming產(chǎn)生動機
Spark Streaming程序設(shè)計
1)創(chuàng)建DStream
2)基于DStream進行流式處理
Spark Streaming容錯與性能優(yōu)化
1)Spark Streaming容錯機制
2)如何對spark Streaming進行優(yōu)化
Spark Streaming案例分析
基于Spark Streaming的用戶標簽系統(tǒng),內(nèi)容包括項目背景,項目架構(gòu)以及實施方法
典型項目案例實戰(zhàn)
基于spark日志分析
個性化推薦系統(tǒng):帶你揭開其神秘面紗
在線投放引擎
揭開淘寶點擊推薦系統(tǒng)的神秘面紗
淘寶數(shù)據(jù)服務(wù)架構(gòu)—實時計算平臺
認證過程
無認證考試
開班信息
暫無開班信息