【107-2】大數據技術平台與應用

Big Data Technology Platform and Applications

楊朝棟 (東海大學)

  課程目標及內涵 (Course Objectives and Contents)
「巨量資料/大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Clou...

Ch 1. AI大數據分析領域現況與挑戰 /  楊朝棟
Ch 2. Hadoop實作 /  楊朝棟
Ch 3. Hadoop/HDFS與HBase的應用 /  楊朝棟

計畫主持人資訊

姓 名 楊朝棟
陳鶴文
電子信箱 ctyang@thu.edu.tw
hwchen@thu.edu.tw
電 話 0936146247
04-23590121#33636
服務學校 東海大學
東海大學
系所單位 東海大學資訊工程學系
環境科學與工程學系
職 稱 特聘教授
教授

教師簡介

姓 名 楊朝棟
現 職 東海大學資訊工程學系特聘教授
E-Mail ctyang@thu.edu.tw
個人網頁 http://ctyang.thu.edu.tw/
連絡電話 0936146247

最高學歷

國立交通大學資訊科學研究所博士

研究專長

雲端計算、大數據、平行處理、深度學習

近年研究主題

雲端計算、大數據、平行處理、深度學習

中文課程名稱: 【107-2】大數據技術平台與應用
英文課程名稱: Big Data Technology Platform and Applications
教師姓名: 楊朝棟
開課學校/系所: 東海大學
開課學期: 1072
學分數: 3 學分
課程關鍵字: 巨量資料/大數據 雲端運算 高效能運算(High Performance Computing)、機器學習(Machine Learning)、雲端計算(Cloud Computing)、資料探勘(Data Mining)
課程領域: 科學及方法
課程階層: 高階
應用數位技術/工具:

大數據的儲存平台
大數據的管理方式
Hadoop & HBase
Spark
Weka

OwnCloud
個人雲端儲存建置
Cloudera
ELK Stack
Elasticsearch
Logstash
Kibana
 

課程概述

  課程目標及內涵 (Course Objectives and Contents)
「巨量資料/大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Cloud Computing) 之後,儼然成為學術界跟科技業中最熱門的潮字,似乎每家公司都在進行有關的研究,三句不離大數 據。巨量資料時代,統計與資料分析是根本中的根本。數據專家(Data Scientist)或量化分析師(Quantitative Analyst)的專業包含了統計學、電腦科學和數學,過去這些人才都搶著要進華爾街工 作,但多虧了 Big Data 帶來的風潮,現在各行各業都在尋找擁有量化分析、統計學背景的工程師、數據專家。本課程將以實際體驗Hadoop多台主機的分散式叢集架構,做到HDFS分散式儲存和MapReduce的叢集運算,達到Big Data的處理與分析。學習Hadoop儲存系統與資源管理框架及Spark In-Memory巨量資料相關關鍵技術。資料分析軟體及程式語言-Python或R語言做為進入巨量資料分 析的初階基本課程,相信要進大數據一行不成問題。
在大數據技術平台與應用這門課程中,將帶領學生了解當前最當紅的與大數據技術與平台,並利用相關的開放源碼框架實作學習,使學生學習到符合目前與未來發展趨勢的基礎原理與相關的實作技術。從服務雲端化至大數據軟體環境建置及應用實作,達到理論與實務兼備的教學目標。
讓學生暸解與熟悉代表性的巨量資料分析技術之操作、應用與實現的方法
讓學生暸解與熟悉常見的巨量資料運算平台之原理、架構,並實際建置與操作
讓學生暸解與熟悉巨量資料之熱門議題,如:高效能運算(High Performance Computing)、機器學習(Machine Learning)、雲端計算(Cloud Computing)、資料探勘(Data Mining)
提高學生對於巨量資料分析技術與相關應用的興趣,培植國內相關領域之可用人才。
利用實作達到理論與實務兼備的教學目的。
實驗1:Data analytics on single machine,利用巨量資料分析技術(Python或R、Weka或Scikit-Learn)觀察生活現象,在本課程提供了四個搭乘計程車的問題供學生實作。
實驗2:Big Data analytics on Big Data platform,使用Java、Scala或Python在Hadoop平台上運行Spark處理大數據資料,本課程要求學生實作”word count”範例程式作為練習,再將此程式修改並搭配實驗一的題目來做更深入的研究與討論。

教學目標

 運用數學、科學、工程與資訊科技知識的能力
分析問題、定義需求並獨立尋找解決方法的能力
設計與實作元件或系統所需的技術能力
團隊合作與溝通的能力
吸收科技新知與產業動態的能力
專業知識與技術
具有發現、分析、解決問題能力
具有邏輯運算思維能力
培養數位科技應用能力

授課方式

課堂教學

成績評量方式

  評分項目 配分比例
1 出席與討論 20%
2 作業 60%
3 期末考與期末分組專題 20%

教學進度

 什麼是大數據?
什麼是大數據技術平台
大數據技術的應用
如何儲存與管理大數據
大數據的儲存平台
大數據的管理方式
Hadoop介紹
HBase介紹
Hadoop & HBase應用
Hadoop建置
Hadoop MapReduce實作
Spark概論
介紹Spark In-memory與Hadoop之差異
Spark RDD實作(以Scala撰寫)
Spark建置
Spark程式實作
Weka建置
以weather.nominal.arff 作為資料來源
實作機器學習演算法 C4.5、K-means、apriori
示範如何透過Python將公開資料視覺化呈現及分析

期中考週

介紹Weka
講解如何透過Weka作簡單的機器學習
介紹OwnCloud
講解如何透過OwnCloud作簡單的數據存取
OwnCloud應用實作
個人雲端儲存建置
Cloudera概敘
講解如何透過Cloudera使用多項大數據開源軟體
Cloudera應用實例介紹
Cloudera實際操作應用
ELK Stack簡介
Elasticsearch介紹
Logstash介紹
Kibana介紹
ELK環境建置
Elasticsearch資料收集、分析、儲存
Log資料分析、過濾應用
實作Kibana資料視覺化
實作爬蟲程式撰寫
資料欄位篩選
基礎網頁建置
運用網頁將資訊視覺化
期末專題 期末專題分組報告

無資料