【生活】台灣資料科學年會系列活動 - 自然語言處理講座




↑圖片來源:資料科學年會系列活動


前言

大數據/資料科學一直是近幾年非常熱門的話題,由於自己最近對於資料分析有興趣,開始接觸此領域的相關書籍與課程。
台灣資料科學協會(以下簡稱協會)是台灣推廣資料科學、技術與應用的協會,透過朋友的推薦我發現有推出一系列的課程,在經過一番瀏覽後我參加2017.09.03(日)的「無所不在的自然語言處理— 基礎概念、技術與工具介紹」講座。資料科學是一門非常廣泛的學問,透過協會的學習地圖可以看到,本次的講座主題 - 自然語言處理(下稱NLP)是屬於「探勘技術」下的一個環節,維基百科對於NLP的定義:

自然語言處理(英語:Natural Language Processing,簡稱NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言認知則是指讓電腦「懂」人類的語言。
自然語言理解系統把自然語言轉化為計算機程序更易於處理的形式。



↑圖片來源:台灣資料科學協會



要在短短一天摸透NLP的精華是不可能的,但是此講座的目的主要是讓入門的學習者可以對NLP有一定的認識,演講者-古倫維老師將重點放在:
  • NLP的簡述
  • 實作NLP的工具
  • 針對社群網路NLP的對策
  • 業界趨勢的發展
四大主題來解說,雖然前一陣子我曾經上過清華大學-ShareCourse 「Python資料科學實作」 ,但對於此一部分只有粗淺的認識,在這次課程聽到許多學術上或業界中實際應用的分析套件,希望之後自己可以簡單分析個東西來進行實作練習。協會也有將本次課程的簡報放在SlideShare,若有興趣的朋友可以到點*這裡*來閱讀課程投影片。

本次上課除了在NLP上有多一層認識,在協會對於整個流程的安排、互動工具的使用、同學之間的互動都有良好的設計,值得記下來當作未來自己辦活動的參考。


本次的收穫

本次的收穫主要有三點,分別是:
  1. 講師與學生互動:善用「Sli.do」發問工具,增加互動效率。
  2. 學生與學生筆記共享:學習Markdown格式,使用Hackmd.io與他人一起做筆記。
  3. 講師投影片與課後補充資料:投影片應該專注在「溝通」,詳細補充筆記應該用另外一個檔案提供。

講師與學生互動

這一次協會在上課之前,透過Gmail課前通知課堂上講師將使用Sli.do與學生進行問題討論,由於之前也只有在電腦玩物看過Sli.do的介紹,但並沒有在課堂上實際使用過,這一次的使用經驗讓我考慮以後若有演講機會也要試用這個軟體。
Sli.do是一個現場Q&A、投票互動的工具,學生不需要註冊,只要輸入講師提供的課程群組代碼,就可以加入群組與老師、其他學生互動。


↑輸入課程代碼就可以加入討論群組



提問者不一定要公開自己的帳號/姓名,此外所有人都可以瀏覽提問問題,學生與學生之間也都可以互相回覆,這樣至少有兩個好處:
  • 老師不會因為學生發問太踴躍,忘記其他同學問過的問題
  • 老師可以挑選按讚數最高(可能是大家都關心)的問題先行回答
  • 同學和同學之間可以互相解答,就算老師沒有回答,發問者還是可以獲得答案



↑學生的發問紀錄



學生與學生筆記共享

大家可以看到上圖按攢數最高的留言,是一位熱心的同學發的共享筆記連結 - Hackmd.io,這個功能之前也有看過文章介紹過,但實際看過熱心同學整理的筆記才發現,這真的好帥、好方便呀!
Hackmd.io是由台灣團隊開發的協作筆記服務,這個服務與其他協作筆記最大的不同點是:支援Markdown格式、方便貼上與顯示程式碼的筆記服務。
甚麼是Markdown格式呢?這篇「Markdown文件」寫得很清楚,另外引用自OpenFoundry的介紹:

Markdown是一個輕量的標記語言, 主要用於讓人們可以不用HTML複雜繁長的語法就能夠標記格式而達到管理文件的目的. Markdown是由John Gruber跟Aaron Swartz所創造出來的. 他們希望能夠讓人們可以用易讀, 易寫的簡單文件格式, 透過工具格式化轉成HTML.

一篇由Hackmd.io寫成的筆記大概會長成下面這樣(引用自HackMD 取代 Hackpad 的中文版 Markdown 共筆平台上手教學):


↑電腦玩物的Hackmd.io筆記測試


真的是充滿濃濃Geek風,其中我覺得非常方便的,除了使用簡單的符號就可以實作許多文字變化功能(例如*粗體*,就可以直接表示文字粗體功能),使用# 建立標題後,右上方就有類似導覽bar可以點選,點擊後可以直接跳到該title的內容。編輯完成後可以匯出至dropbox、google drive之外,也可以發佈成HTML格式直接給別人參考,真的非常方便!


講師投影片與課後補充資料

一整天的課程(早上9:30 ~ 下午 5:30)雖然讓人收穫滿滿,但是在上課的過程中自己也是不小心走神了幾次,我認為老師上課準備的是真的很用心、補充非常多的資料,但是在PPT的製作上可能還可以再精簡一些,課堂中有一些較繁瑣內容可以當作補充資料放在PPT之後,或是另外提供檔案給學生參考較好,也就是上課PPT課後補充資料可以分開提供。

總結

今日的課程真的是收穫滿滿,不管是在資料科學還是上課互動設計,都學習到新的東西,但我對於資料科學的學習之旅才正要開始,之後的部落格文章也會陸續紀錄自己學習到、理解到的概念。

留言

這個網誌中的熱門文章

【讀書】學習怎麼學習 - 成甲《精準學習》讀後心得

【工具文】如何「有效」使用Evernote? 我們的第二個大腦

【讀書/工具文】如何閱讀一本書