騰訊云大數(shù)據(jù)開發(fā)工程師培訓(xùn)大綱
大數(shù)據(jù)技術(shù)與生態(tài)圈概述
1. 大數(shù)據(jù)與Hadoop概述
2. 騰訊大數(shù)據(jù)應(yīng)用案例
3. 大數(shù)據(jù)行業(yè)現(xiàn)狀
4. Hadoop設(shè)計思想
5. Hadoop與Spark生態(tài)圈
EMR產(chǎn)品使用與運維
1. 騰訊云EMR產(chǎn)品介紹
2. EMR入門操作與使用說明
3. EMR客戶案例
4. EMR權(quán)限控制
5. EMR監(jiān)控
6. EMR擴容
7. EMR硬件管理
8. EMR參數(shù)配置
9. EMR數(shù)據(jù)遷移
HDFS使用
1. HDFS概述
2. HDFS架構(gòu)與組成
3. HDFS操作與API
4. HDFS高可靠保證
5. HDFS與騰訊云COS
MapReduce編程
1. MapReduce框架
2. MapReduce編程模型
3. MapReduce工作原理
4. 資源管理框架YARN
Hive基礎(chǔ)與操作
1. Hive概述與基本架構(gòu)
2. Hive環(huán)境與基礎(chǔ)操作
3. DDL與DML操作
4. Hive系統(tǒng)函數(shù)與自定義函數(shù)
5. Hive與Sqoop工具
HBase使用
1. Hbase基礎(chǔ)與架構(gòu)
2. Hbase數(shù)據(jù)結(jié)構(gòu)
3. Hbase內(nèi)置表與讀寫流程
4. Hbase使用與API
Presto架構(gòu)與使用
1. Presto概述
2. Presto整體架構(gòu)與運行原理
3. Presto Connector
4. Presto常用函數(shù)
SparkCore基礎(chǔ)與開發(fā)
1. Spark概述
2. Spark程序與RDD操作
3. 普通型RDD Transformation操作
4. 鍵值型RDD Transformation操作
5. RDD Action操作
6. RDD共享變量、持久化與依賴
7. Spark架構(gòu)與運行
8. Tez、Spark與MR對比
9. Spark WordCount演示
SparkSQL開發(fā)
1. SparkSQL概述與架構(gòu)
2. DataFrame與DataSet
3. SparkSQL數(shù)據(jù)源操作
4. SparkSQL自定義函數(shù)
SparkStreaming開發(fā)
1. SparkStreaming概述
2. SparkStreaming運行流程
3. SparkStreaming基礎(chǔ)算子
4. SparkStreaming高級算子
5. SparkStreaming案例
6. Spark與Storm區(qū)別
Kafka基礎(chǔ)與開發(fā)
1. Kafka概述
2. Kafka架構(gòu)與關(guān)鍵機制
3. Ckafka API與實戰(zhàn)
4. SparkStreaming與Kafka整合
數(shù)據(jù)挖掘與機器學(xué)習(xí)基礎(chǔ)
1. 大數(shù)據(jù)分析介紹
2. 機器學(xué)習(xí)概念
3. 機器學(xué)習(xí)分類
4. 常見分析模型與算法
5. 用戶畫像應(yīng)用基礎(chǔ)與構(gòu)建
課程實驗
1. 實驗1-Hadoop實驗環(huán)境準(zhǔn)備
2. 實驗2-HDFS分布式文件系統(tǒng)
3. 實驗3-COS存儲系統(tǒng)
4. 實驗4-MapReduce分布式計算框架
5. 實驗5-Hive數(shù)據(jù)庫表創(chuàng)建和數(shù)據(jù)加載
6. 實驗6-分布式列式數(shù)據(jù)庫Hbase
7. 實驗7-Presto數(shù)據(jù)庫表創(chuàng)建和數(shù)據(jù)加載
8. 實驗8-離線日志分析
9. 實驗9-Spark內(nèi)存計算框架
10. 實驗10-Spark實戰(zhàn)
11. 實驗11-Ckafka生產(chǎn)者消費者實踐
12. 實驗12-EMR集群的運維
13. 實驗13-互聯(lián)網(wǎng)電商日志分析系統(tǒng)實戰(zhàn)
14. 實驗14-基于用戶畫像的推薦實戰(zhàn) |