現(xiàn)今是大數(shù)據(jù)時代,為構建大數(shù)據(jù)平臺,技術人員需要對分布式計算平臺有一定深入的理解和應用。本課程將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程,涉及Spark Hadoo系統(tǒng)基礎知識,概念及架構,Spark Hadoo實戰(zhàn)技巧,Spark、Hadoo經(jīng)典案例等。
學員須具備:了解Linux系統(tǒng)及相關語言環(huán)境;
各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。
幫助學員對Spark、Hadoo生態(tài)系統(tǒng)有一個清晰明了的認識;
理解Spark、Hadoo系統(tǒng)適用的場景;
掌握Spark、Hadoo等初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Spar、Hadook集群,滿足生產(chǎn)環(huán)境的標準。
-- 大數(shù)據(jù)整體體解決方案架構介紹;
-- Cloudera CDH安裝及集群介紹;
-- Kafka的使用場景;
-- HDFS HIVE IMPALA組件;
-- HIVE、IMPALA區(qū)別:特性不同點,架構不同特點;
-- Zookeeper組件;
-- Azkaban、Yarn 調(diào)度資源協(xié)調(diào);
-- yarn架構組件(Resourcemanager、NodeManager、ApplicationMaster);
-- yarn作業(yè)調(diào)度流程;
-- 大數(shù)據(jù)安全管理;
-- Hadoop安全機制Kerberos。
學習內(nèi)容
大數(shù)據(jù)整體體解決方案、架構介紹、流處理、批處理
硬件選型,操作系統(tǒng)選型
開源軟件,Hadoop生態(tài)軟件
大數(shù)據(jù)組件(開發(fā)語言介紹)
Cloudera CDH安裝及集群介紹
Cloudera CDH 安裝
Hadoop集群介紹,Hadoop集群使用
HDFS分布式文件系統(tǒng)介紹
Kafka的使用場景
Kakfa的設計思想,Kafka文件存儲機制
持久化\負載均衡\Topic模型
消息傳輸一致性\分布式
Leader的選擇\集群分區(qū)
生產(chǎn)者消費者配置
案例:Kafka從flume獲取消息,實現(xiàn)傳輸
flume+sqoop介紹及開發(fā)實例
flume實現(xiàn)數(shù)據(jù)采集流程
flume agent配置,flume sink配置,flume 數(shù)據(jù)過濾
案例(1): 使用flume動態(tài)采集日志
Sqoop功能及軟件結(jié)構
從關系型數(shù)據(jù)庫導入數(shù)據(jù)到HDFS,從HDFS導入數(shù)據(jù)到關系型數(shù)據(jù)庫
案例: 從HDFS導入數(shù)據(jù)到MySQL數(shù)據(jù)庫
案例: 從MySQL數(shù)據(jù)庫導入數(shù)據(jù)到HDFS
Hadoop集群搭建、Spark集群部署及測試
Spark交互式命令行
如何使用Spark交互式命令行、理解Spark任務提交流程、執(zhí)行流程
如何通過WebUI查看任何執(zhí)行狀態(tài)
spark streaming運行原理spark 生態(tài)及運行原理
集群模式
Spark工作機制
RDD彈性分布式數(shù)據(jù)集,介紹RDD實現(xiàn)原理
理解什么是Action和Transformation,理解窄依賴與寬依賴
Spark核心概念之RDD
RDD函數(shù)
Spark核心概念之Shuffle
Spark Job執(zhí)行原理分析、shuffle操作解析
Spark核心概念之Cache
Spark廣播變量與累加器、Cache與checkpoint問題
Spark多語言編程
Spark SQL組件、架構
DataFrame、SparkSQL運行原理
Spark SQL基礎應用
Spark Streaming運行原理、DStream
DStream 常用函數(shù)
Machine Learning On Spark簡介、常用數(shù)據(jù)結(jié)構
Spark 資源調(diào)優(yōu)
案例:spark streaming數(shù)據(jù)處理
HDFS HIVE IMPALA組件
DHFS分布式存儲特性
DHFS訪問方式
HDFS優(yōu)化方案
HIVE IMPALA查詢
共同點:如數(shù)據(jù)表元數(shù)據(jù)、ODBC/JDBC驅(qū)動、SQL語法、靈活的文件格式、存儲資源池等
HIVE、IMPALA區(qū)別:特性不同點,架構不同特點
Zookeeper組件
Zookeeper應用
Zookeeper注冊中心管理
Zookeeper配置與協(xié)調(diào)
實驗:HDFS存取數(shù)據(jù)、HIVE、IMPALA實現(xiàn)數(shù)據(jù)分析和報表
Azkaban、Yarn 調(diào)度資源協(xié)調(diào)
Azkaban的適用場景
Azkaban特點
Azkaban的架構
配置文件
啟動executor服務器
啟動web服務器
案例:多job工作流案例
yarn架構組件(Resourcemanager\NodeManager\ApplicationMaster)
yarn作業(yè)調(diào)度流程
綜合案例
Flume實現(xiàn)日志采集+kafka(消息隊列、緩存)+spark streaming(數(shù)據(jù)處理)+數(shù)據(jù)庫/DHFS
sqoop 導入關系型數(shù)據(jù)庫,實現(xiàn)hive impala查詢
大數(shù)據(jù)安全管理
Apache Sentry
Hadoop安全機制Kerberos
無認證考試
暫無開班信息
AI大模型研發(fā)工程師實訓課程(就業(yè)保障)
隨著 2023 年以 Chat GPT為代表的人工智能大語言模型的突然爆火,全世界人工智能的發(fā)展得到了飛速的發(fā)展,尤其是大模型的應用已經(jīng)覆蓋到人類生產(chǎn)生活的方方面面,大模型在企業(yè)的應用已經(jīng)成為當前以及未來人工智能發(fā)展的方向,由此帶來了與大模型相關的巨大的人才缺口。
開課時間:暫無
AIGC大模型應用開發(fā)落地實戰(zhàn)—基于OpenAI LLM
本課程是您掌握人工智能領域最前沿技術的理想選擇,課程專注于AIGC技術的應用開發(fā),旨在培養(yǎng)您成為AI領域的專家。
開課時間:暫無
字節(jié)Coze大模型應用開發(fā)最佳實戰(zhàn)
在數(shù)字化浪潮中,AI技術正以驚人的速度革新我們的世界。字節(jié)跳動旗下的Coze大語言模型平臺,以其強大的功能和易用性,成為AI應用開發(fā)的新寵。本課程旨在幫助您掌握Coze平臺的核心技能,快速構建智能AI應用。
開課時間:暫無