【專業(yè)介紹】
Spark是類MapReduce的通用并行框架,Spark,擁有MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法;
Spark是近年來發(fā)展較快的分布式并行數(shù)據(jù)處理框架,可以與Hadoop聯(lián)合使用,增強(qiáng)Hadoop的性能。同時,Spark還增加了內(nèi)存緩存、流數(shù)據(jù)處理、圖數(shù)據(jù)處理等更為的數(shù)據(jù)處理能力。
【課程內(nèi)容】
Spark核心框架概況、運(yùn)行模式、基本術(shù)語的介紹;
Spark的核心組件RDD及相關(guān)的數(shù)據(jù)分析方法;
Spark的血統(tǒng)與檢查點(diǎn)、Spark的技術(shù)原理、對Spark的基礎(chǔ)使用進(jìn)行階段性實(shí)戰(zhàn)訓(xùn)練,
對基于Spark-SQL的樣例程序進(jìn)行深度分析、流式數(shù)據(jù)分析框架Spark-Streaming的基礎(chǔ)理論,
對基于Spark-Streaming的樣例程序進(jìn)行深度分析、機(jī)器學(xué)習(xí)框架Spark-MLlib的基礎(chǔ)理論,
圖計算框架Spark-GraphX的基礎(chǔ)理論,
Spark的性能優(yōu)化技術(shù);
【課程目標(biāo)】
對Spark的使用進(jìn)行階段性實(shí)戰(zhàn)訓(xùn)練,此過程需要學(xué)員進(jìn)行實(shí)際動手操作,旨在將理論付諸實(shí)踐,提高學(xué)員的實(shí)際動手能力。
【教學(xué)環(huán)境】
【關(guān)于我們】
電子科大大數(shù)據(jù)研究中心介紹
大數(shù)據(jù)研究中心是目前國內(nèi)規(guī)模大、架構(gòu)完整的大數(shù)據(jù)產(chǎn)學(xué)研一體化機(jī)構(gòu),擁有人才12名,中心成員曾獲得1項(xiàng)自然科學(xué)二等獎,2項(xiàng)科技進(jìn)步二等獎,11項(xiàng)省部級科技獎勵一等獎。
2014年11月18日,科多大數(shù)據(jù)的母公司勤智數(shù)碼科技有限公司與成都電子科技大學(xué)大數(shù)據(jù)研究中心就共同發(fā)起設(shè)立的成電勤智“機(jī)器學(xué)習(xí)與數(shù)據(jù)智能”聯(lián)合實(shí)驗(yàn)室,專注于大數(shù)據(jù)機(jī)器學(xué)習(xí)領(lǐng)域的研究。
【學(xué)校榮譽(yù)】
【專業(yè)師資】
吳志剛
互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析專家
15年以上互聯(lián)網(wǎng)大數(shù)據(jù)從業(yè)經(jīng)驗(yàn),曾服務(wù)于世界500強(qiáng)企業(yè)諾西;對貝葉斯分析方法進(jìn)行數(shù)據(jù)分析與挖掘有深入研究,擅長基于分布式數(shù)據(jù)庫的應(yīng)用開發(fā)
朱勝
大數(shù)據(jù)安全領(lǐng)域?qū)<?/p>
10年數(shù)據(jù)領(lǐng)域從業(yè)經(jīng)驗(yàn),歷經(jīng)軟件開發(fā)、系統(tǒng)設(shè)計、項(xiàng)目管理、項(xiàng)目咨詢等多個階段,有著豐富的電力、物流、零售業(yè)龍頭企業(yè)的數(shù)據(jù)管理、數(shù)據(jù)分析和產(chǎn)品設(shè)計等經(jīng)驗(yàn)。