【專業(yè)介紹】
Spark是類MapReduce的通用并行框架,Spark,擁有MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法;
Spark是近年來發(fā)展較快的分布式并行數(shù)據(jù)處理框架,可以與Hadoop聯(lián)合使用,增強Hadoop的性能。同時,Spark還增加了內存緩存、流數(shù)據(jù)處理、圖數(shù)據(jù)處理等更為的數(shù)據(jù)處理能力。
【課程內容】
Spark核心框架概況、運行模式、基本術語的介紹;
Spark的核心組件RDD及相關的數(shù)據(jù)分析方法;
Spark的血統(tǒng)與檢查點、Spark的技術原理、對Spark的基礎使用進行階段性實戰(zhàn)訓練,
對基于Spark-SQL的樣例程序進行深度分析、流式數(shù)據(jù)分析框架Spark-Streaming的基礎理論,
對基于Spark-Streaming的樣例程序進行深度分析、機器學習框架Spark-MLlib的基礎理論,
圖計算框架Spark-GraphX的基礎理論,
Spark的性能優(yōu)化技術;
【課程目標】
對Spark的使用進行階段性實戰(zhàn)訓練,此過程需要學員進行實際動手操作,旨在將理論付諸實踐,提高學員的實際動手能力。
【教學環(huán)境】
【關于我們】
電子科大大數(shù)據(jù)研究中心介紹
大數(shù)據(jù)研究中心是目前國內規(guī)模大、架構完整的大數(shù)據(jù)產學研一體化機構,擁有人才12名,中心成員曾獲得1項自然科學二等獎,2項科技進步二等獎,11項省部級科技獎勵一等獎。
2014年11月18日,科多大數(shù)據(jù)的母公司勤智數(shù)碼科技有限公司與成都電子科技大學大數(shù)據(jù)研究中心就共同發(fā)起設立的成電勤智“機器學習與數(shù)據(jù)智能”聯(lián)合實驗室,專注于大數(shù)據(jù)機器學習領域的研究。
【學校榮譽】
【專業(yè)師資】
吳志剛
互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析專家
15年以上互聯(lián)網(wǎng)大數(shù)據(jù)從業(yè)經(jīng)驗,曾服務于世界500強企業(yè)諾西;對貝葉斯分析方法進行數(shù)據(jù)分析與挖掘有深入研究,擅長基于分布式數(shù)據(jù)庫的應用開發(fā)
朱勝
大數(shù)據(jù)安全領域專家
10年數(shù)據(jù)領域從業(yè)經(jīng)驗,歷經(jīng)軟件開發(fā)、系統(tǒng)設計、項目管理、項目咨詢等多個階段,有著豐富的電力、物流、零售業(yè)龍頭企業(yè)的數(shù)據(jù)管理、數(shù)據(jù)分析和產品設計等經(jīng)驗。