Hadoop數(shù)據(jù)分析與挖掘?qū)崙?zhàn) Spark實戰(zhàn)高端課程培訓方案

認證機構

本課程由北京國軟培訓提供,有850瀏覽量

課程分類:  IT培訓

適合對象:  系統(tǒng)架構師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員;高校、科研院所涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項目負責人;熟悉Hadoop生態(tài)系統(tǒng),想更深入學習Hadoop與Spark整合在企業(yè)應用實戰(zhàn)案例的朋友;

咨詢電話:  400-968-9396

上課地點:  [華信大廈校區(qū)] 北京市石景山石景山周邊華信大廈校區(qū)

開班日期:  滾動開班

學       費:  咨 詢

班       級:  
  • 華信大廈校區(qū)
  • 北京海淀校區(qū)
  • 華信大廈校區(qū)
  • 海淀校區(qū)
 
人       數(shù):
 
報名試聽 我要咨詢

課程簡介

【課程優(yōu)勢】

     本課程的優(yōu)勢就是:

     1、整個培訓過程老師帶著學員進行全程上機操作,因此要求每個學員帶筆記本電腦。

     2、整個過程老師帶著學員進行全程上機操作外,學員會進行全程實戰(zhàn)演練,并且在演練過程中會以實際項目案例為主。在演練過程中老師會進行不斷的指導,使培訓課程真正落地。

【主講老師】

   劉 剛:

原阿里集團-阿里云研發(fā)中心大數(shù)據(jù)資深技術經(jīng)理大數(shù)據(jù)專家,國內(nèi)資深大數(shù)據(jù)實戰(zhàn)專家。

   劉老師現(xiàn)就職于某國際跨國專業(yè)大數(shù)據(jù)公司中國研發(fā)中心高級技術經(jīng)理,大中華區(qū)大數(shù)據(jù)總負責人。目前主要負責該國際跨國專業(yè)大數(shù)據(jù)公司在大中華區(qū)各大商業(yè)銀行、電信等領域大數(shù)據(jù)系統(tǒng)的研發(fā)與現(xiàn)場實踐。

     劉老師同時國內(nèi)資深的、最早的一批大數(shù)據(jù)技術專家、虛擬

 

化專家,在進入阿里之前曾就職于高德等知名IT企業(yè),擔任Hadoop高級工程師。對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDBOpenStack等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富項目實施經(jīng)驗。

     劉老師近年主持或參與的主要典型項目有:上海電信網(wǎng)絡優(yōu)化、中國移動廣東移動省公司請賬單系統(tǒng)和廣州移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、中國光大銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等

【課程大綱】

      “Hadoop數(shù)據(jù)分析與挖掘實戰(zhàn)”課程內(nèi)容

課程模塊

課程主題

主要內(nèi)容

案例和演示

模塊一

Hadoop組件詳解

1、Hadoop HDFS 基本結構

2、Hadoop HDFS 副本存放策略

3、Hadoop NameNode 詳解

4、HadoopSecondaryNameNode 詳解 

5、Hadoop DataNode 詳解

6、Hadoop JobTracker 詳解 

7、Hadoop TaskTracker 詳解

8、Yarn資源管理系統(tǒng)詳解

9、Resourcemanager詳解

10、NodeManager詳解

1、Hadoop Mapper類核心代碼

2、Hadoop Reduce類核心代碼

3、Hadoop 核心代碼

 

模塊二

 

數(shù)據(jù)分析的算法詳解

1、K-means算法詳解

2、線性回歸詳解

3、機器學習詳解

4、Canopy算法詳解

5、貝葉斯算法詳解

 

模塊三

Hive實戰(zhàn)(數(shù)據(jù)分析)

1、Hive

(1)Hive的負載均衡搭建 

(2)Hive的訪問方式 

(3)Hive的元數(shù)據(jù)存儲到Mysql 

(4)Hive的數(shù)據(jù)類型 

(5)Hive表的創(chuàng)建 

(6)Hive加載數(shù)據(jù) 

(7)HiveCLI操作介紹 

2、hive數(shù)據(jù)定義 

(1)內(nèi)部表和外部表 

(2)表的分區(qū) 

(3)刪除表 

(4)修改表 

(5)查詢語句 

(6)where語句 

3、Hive高級查詢語句 

(1)group by操作 

(2)Join操作 

(3)Order bySort by 

(4)Union all 

(5)索引 

4、Hive的存儲類型和復合數(shù)據(jù)類型 

(1)TextFile 

(2)Sequence File 

(3)RCFile 

(4)Hive的自定輸入格式 

(5)Array 

(6)Map 

(7)Struct 

5、Hive的內(nèi)置函數(shù)和自定義UDFUDAF實戰(zhàn) 

6、Hive的調(diào)優(yōu) 

(1)explain 

(2)隊列設置 

(3)Join優(yōu)化 

(4)本地模式和并行執(zhí)行 

(5)設置MapperReducer的個數(shù) 

(6)JVM重用 

(7)索引 

(8)動態(tài)分區(qū)調(diào)整 

(9)推測執(zhí)行 

(10)Hivedebug調(diào)試 

7、hive的安全 

(1)Hivehadoop安全的整合 

(2)使用Hive進行驗證 

(3)Hive的權限管理 

(4)分區(qū)級別的權限 

(5)自定授權 

8、Hive的案例實戰(zhàn) 

(1)nginx日志實戰(zhàn) 

(2)某公司的Hive項目 

1、nginx日志實戰(zhàn) 

2、某公司的Hive項目

模塊四

Mahout實戰(zhàn)(數(shù)據(jù)挖掘)

1、Mahout安裝測試
2、Mahout算法庫介紹
3、解析聚類算法
4、解析分類算法
6、協(xié)同過濾算法
7、聚類算法詳解
8、canopy算法
(1)mahoutcanopy算法實現(xiàn)原理(2)mahoutcanopy算法實戰(zhàn)
(3)Hadoop上面運行canopy算法
9、mean shift算法
(1)mean shift算法簡介
(2)mahoutmean shift算法實現(xiàn)原理
(3)mahoutmean shift算法實戰(zhàn)
(4)Hadoop上面運行mean shift算法
10、k-means算法
(1)k-means算法簡介
(2)mahoutk-means算法實現(xiàn)原理
(3)mahoutk-means算法案例實戰(zhàn)
(4)Hadoop上面運行k-means算法
11、分類算法
(1)貝葉斯算法簡介
(2)貝葉斯算法原理介紹
(3貝葉斯算法在hadoop上面運行
(4)貝葉斯算法的案例實戰(zhàn)
12、Mahout推薦算法介紹
13、Taste的框架介紹
14、Mahout推薦器
(1)基于用戶的推薦器

(2)基于項目的推薦器
(3)Slope One 推薦策略
15、推薦系統(tǒng)實戰(zhàn)
(1)個性化推薦介紹
(2)推薦建模
(3)數(shù)據(jù)準備
(4)關聯(lián)分析
(5)代碼編寫

模塊五

數(shù)據(jù)挖掘在電信的案例

1、基站數(shù)據(jù)分析

2、人流的動態(tài)分析

3、拉鏈算法的案例詳解

4、套餐的更改軌跡分析

5、客戶中心的數(shù)據(jù)情感分析和挖掘

6、用戶的通話記錄分析

7、套餐的營銷分析

8、分析流式的用戶和挖掘潛在的客戶

模塊六

數(shù)據(jù)挖掘在銀行的案例

1、財務分析

2、客戶價值&風險定價

3、巴塞爾3 &信用風險

4、績效管理

5、客戶關系管理(CRM)

6、客戶訪問分析

7、流失路徑

8、購買路徑

9、欺詐路徑

10、多渠道營銷

11、欺詐

12、數(shù)據(jù)挖掘&原型設計

13、營銷歸因

14、投訴&銷售合規(guī)

15、情感分析

u

              “Spark實戰(zhàn)”課程內(nèi)容

模 塊

培訓大綱

Spark

運行架構和解析

1、Spark的運行架構

2、基本術語

3、運行架構

4、Spark on Standalone運行過程

5、Spark on YARN 運行過程

6Spark運行實例解析

7、Spark on Standalone實例解析

8Spark on YARN實例解析

Spark

監(jiān)控和調(diào)優(yōu)

1、Spark的監(jiān)控

2Spark調(diào)優(yōu)

     Spark

編程模型和解析

1、Spark的編程模型

2、Spark編程模型解析

3、RDD的特點、操作、依賴關系

4、Spark應用程序的配置

Spark

scala編程

1Scala基本語法

2、Scala開發(fā)環(huán)境搭建

3、Scala開發(fā)Spark應用程序

Spark Streaming原理和實踐

1、Spark Streaming原理

2Spark流式處理架構

3、DStream的特點

4、Dstream的操作和RDD的區(qū)別

5、Spark Streaming的優(yōu)化

6、Spark Streaming實例

7、文本實例

8、網(wǎng)絡數(shù)據(jù)處理

Spark SQL

原理和實踐

1Spark SQL原理

2、Spark SQLCatalyst優(yōu)化器

3Spark SQL內(nèi)核

4、Spark SQLHive

5、Spark SQL的實例和編程

6、Spark SQL的實例操作demo

7、Spark SQL的編程

Spark

源碼研讀

1、Spark源碼研讀

2、Spark源碼下載和研讀環(huán)境搭建

3、Spark Core介紹

4、SparkContext

5、Executor

6、Deploy

7、RDDStorage

8、SchedulerTask

9、Spark Examples

 

Spark應用

案例實戰(zhàn)

1、基于spark日志分析

2、個性化推薦系統(tǒng):帶你揭開其神秘面紗

3、在線投放引擎

4、揭開淘寶點擊推薦系統(tǒng)的神秘面紗

5、京東商城數(shù)據(jù)服務架構實時計算平臺


 

開設班級

班級 開班時間 上課地點 學費 試聽/報名
華信大廈校區(qū)/ 面授 滾動開班 北京石景山華信大廈校區(qū) 咨詢 報名
北京海淀校區(qū)/ 面授 滾動開班 北京海淀花園橋世紀經(jīng)貿(mào)大廈 咨詢 報名
華信大廈校區(qū)/ 面授 北京石景山華信大廈校區(qū) 5800.00 報名
海淀校區(qū)/ 面授 北京海淀花園橋世紀經(jīng)貿(mào)大廈 5800.00 報名
 

教學環(huán)境

查看全部照片  >

課程咨詢

我要咨詢
 

發(fā)表咨詢

 
有回復時短信通知我 發(fā)表咨詢
更新時間:2019-02-27