【107-2】語料分析工具與數位人文應用

Application: Digital Humanities Techniques for Chinese Studies

曾若涵 (國立中正大學)

 本計畫立基於數位人文的發展趨勢以及開課教師本身的漢語語言學專業,擬於此次課程計畫中,將數位人文結合語言學,提供學生基礎的數位知識,以理解自然語言處理的相關問題,拓展未來職涯發展的可能。

計畫主持人資訊

姓 名 曾若涵
電子信箱 hannahegg@gmail.com
電 話 (05)2720411轉分機31103
服務學校 國立中正大學
系所單位 中國文學系
職 稱 助理教授

教師簡介

姓 名 曾若涵
現 職 助理教授
E-Mail hannahegg@gmail.com
連絡電話 (05)2720411轉分機31103

最高學歷

國立中山大學文學博士

研究專長

聲韻學、語言學概論、華語語音學、日本江戶韻學

近年研究主題

聲韻學、語言學概論、華語語音學、日本江戶韻學

中文課程名稱: 【107-2】語料分析工具與數位人文應用
英文課程名稱: Application: Digital Humanities Techniques for Chinese Studies
教師姓名: 曾若涵
開課學校/系所: 國立中正大學
開課學期: 1072
學分數: 3 學分
課程關鍵字: 數位人文
語料分析工具
漢語語言學
中文文本分析
文本量化分析
課程領域: 人文學
課程階層: 基礎
應用數位技術/工具:

中研院斷詞系統

哈工大斷詞系統

Python

jieba斷詞系統

庫博斷詞系統

 

先備課程: 語言學概論
華語語法學
詞彙學
延伸課程: Python程式語言
相關課程: 語料分析與數位人文概論
Python程式語言
數位工具及漢語語言學研究方法

課程概述

 本計畫立基於數位人文的發展趨勢以及開課教師本身的漢語語言學專業,擬於此次課程計畫中,將數位人文結合語言學,提供學生基礎的數位知識,以理解自然語言處理的相關問題,拓展未來職涯發展的可能。
進行各領域文本研究時,文本分析或語料處理乃是必備能力,然而整理文本往往成為最耗費心力的過程。引導學生具備數位人文的知識與技能,善用數位工具,能增進對既有知識之理解,且能爭取更多深入思考的時間。據此理念,本課程分三個部分執行:第一部分為中文斷詞系統與中文語料分析工具選介及探索(將複習上學期「概論」課程之部分內容並依實際狀況深化)。第二部分,手把手學習python程式語言基礎並接觸自然語言處理的基礎演算法(安排18-20小時),演練機器學習最基本的程式語言句式,並探討如何應用於文本解析。第三部分著重於前述數位工具的綜合應用,如何適應不同類型的文本進行資料收集、語境分析、視覺應用等等面向。以上各部分之比例與難度將依實際情形進行調整,以提供適切的條件供學生實際應用。課程最後將綜合上述三部分,讓學生進行分組專題實作,並於期末發表成果。
107學年度第1學期曾開設過「語料分析工具與數位人文概論」,並於該課程中嘗試安排4週(共4*3=12小時),學生反應良好,故於107-2「語料分析工具與數位人文應用」中進一步增加「程式設計及邏輯運算」專業授課之時數,師生將一同於課程中挑戰人文與科技的跨領域專題。

教學目標

1. 接觸數位語料分析工具,認識數位人文的發展及未來可能趨勢。
2. 能夠利用語料分析工具來處理各種類型的中文文本材料。
3. 對Python語言程式或者數位人文相關議題有基礎認識。

修課條件

 以下四者具備任一項即可,不以修過「語料分析工具與數位人文概論」者為限:
1.有語言學概論之基礎為宜,或者修習過任何一門語言學相關課程。
2.願意挑戰語料庫、語料處理系統、程式語言,有解決跨語言問題的信心與勇氣。
3.中文系主修、雙主修、輔系生。
4.願意小組合作,參與專題式課程;本課程非單純講授式課程,須小組完成任務。

授課方式

課堂教學

成績評量方式

■上課態度及互動20%:包含出席、課堂提問、小組討論、團體活動成績
■小考及實作練習30%
■期中考或專題提案報告20%
■期末小組專題報告30%
■加分機制(研擬中)

教學進度

 預定每週教學進度及內容:灰底部分為「程式設計及邏輯運算」專業授課之週次
※實際進度將依學生學習狀況彈性調整;數位資訊課程難度也隨時彈性調整。
期數(週次) 單元 內容
第1週
02/21 課程銜接 主題:上學期課程複習、新學期課程介紹,進行課程銜接小練習或者作業
內容及活動:教師提供幾個常見的數位人文情境供學生回憶所學、提出新問題
第2週
02/28 228停課 -
第3週
03/07 python與斷詞系統-1 主題:斷詞系統與語言程式:以python為例(上)
內容:python的概論性介紹、包括功能及應用;基礎演算法介紹
活動:實際安裝python, jieba並操作最基本功能
第4週
03/14 python與斷詞系統-2 主題:斷詞系統與語言程式:以python為例(下)
內容:python功能及應用;;基礎演算法介紹
活動:實際安裝python, jieba並操作最基本功能
練習jieba自建詞庫、詞性定義、詞頻統計
第5週
03/21 python與圖像視覺化-1 主題:python與圖像視覺化
內容:從語言學上的詞彙、語料庫到python語法下的語料庫,將斷詞結果應用於文字雲、函式圖之視覺呈現
活動:在詞頻統計的基礎上練習文字雲、函式圖
第6週
03/28 python與圖像視覺化-2 主題:python與圖像視覺化
內容:將斷詞結果應用於文字雲、函式圖之視覺呈現
活動:利用共同文本(古文、現代文各一)實際操作基本語法
第7週
04/04 兒童節停課 -
第8週
04/11 期中報告 期中考或專題提案報告
第9週
04/18 python與資料庫文本統計分析-1 主題:資料庫文本分析方法與統計法簡介
內容:資料庫文本之分析之python應用統計方法實作
活動:分組實作練習(文本未定)、嘗試設計程式
第10週
04/25 專題演講 主題:校內/校外專家專題演講
內容:暫定1-圖書文本資料庫或人文大數據專家
暫定2-數位人文主題演講
第11週
05/02 自然語言處理-1 主題:機器學習與文本分類-介紹
內容:了解現今科技中如何將機器學習應用於文本
活動:各組挑選文本,並互相討論可行的分析手段
第12週
05/09 專題演講 主題:校內/校外專家專題演講
內容:暫定自然語言處理或產學專家演講
第13週
05/16 自然語言處理-2 主題:自然語言的線性邏輯與n-gram方法應用、漢語語言學的線性及非線性邏輯
內容:從中文的詞序及線性邏輯來思考自然語言處理中n-gram方法的原理及限制(上)
活動:各組專題任務進度報告1:論題設定、方法應用
第14週
05/23 自然語言處理-3 主題:自然語言線性邏輯與n-gram應用、中文自然語言處理的現況及難點
內容:從中文的詞序及線性邏輯來思考自然語言處理中n-gram方法的原理及限制(下)
活動:各組專題任務進度報告2:問題與解決
第15週
05/30 總整理-1 主題:數位人文中的語料處理與文本分析(上)
內容:利用特定的數位工具之前,應該對文本作何種預處理?
活動:各組專題任務進度報告3:數位工具之調整、全人工與半自動解析文本之差異
第16週
06/06 期末成果 小組專題論文或大數據計畫:分組報告數位人文應用成果-1
第17週
06/13 期末成果 小組專題論文或大數據計畫:分組報告數位人文應用成果-2
第18週
06/20 期末成果 小組專題論文或大數據計畫:分組報告數位人文應用成果-3

無資料