服務熱線
0530-5837666
重磅干貨,第一時間送達
作者:微調@zhihu
圖片:pexels
深度學習的課程和傳統(tǒng)計算機課程有很大的不同,也可以說獨樹一幟,其獨特性主要來自于:1. 前置課程多 2. 缺乏完整的理論體系 3. 繁多的調參技巧 4. 知識迭代速度快 5. 交叉領域應用能力強。
以幾門傳統(tǒng)的計算機課程(數(shù)據(jù)結構和算法、數(shù)據(jù)庫、操作系統(tǒng))為參照對象,我覺得深度學習課程設置有以下不同:
1. 前置課程要求較多,需要較廣的基礎知識
一般我們把深度學習/機器學習的課程安排在大三以后,而研討課(seminar)一般安排在研究生博士階段,這與大部分傳統(tǒng)計算機課程不同。這是因為深度學習涉及了很多數(shù)學、統(tǒng)計概率、以及優(yōu)化方向的知識,對剛入學的學生不大友好,具體包括:
線性代數(shù):矩陣/張量乘法、求逆,奇異值分解/特征值分解,行列式,范數(shù)等
統(tǒng)計與概率:概率分布,獨立性與貝葉斯,最大似然(MLE)和最大后驗估計(MAP)等
信息論:基尼系數(shù),熵(Entropy)等
優(yōu)化:線性優(yōu)化,非線性優(yōu)化(凸優(yōu)化/非凸優(yōu)化)以及其衍生的求解方法如梯度下降、牛頓法、基因算法和模擬退火等
數(shù)值計算:上溢與下溢,平滑處理,計算穩(wěn)定性(如矩陣求逆過程)
微積分:偏微分,鏈式法則,矩陣求導等
舉個例子,我曾短暫帶過多倫多大學神經(jīng)網(wǎng)絡的課程(就是Hinton原來教的那門csc321)的助教,當時給我們助教的資格測試是對矩陣進行奇異值分解和其他線性代數(shù)的知識,而不是推導BP算法。這也是為什么大部分深度學習課程的前幾節(jié)助教課都是講這些基礎知識,正所謂不積跬步無以至千里。
而大部分的傳統(tǒng)計算機課程不需要這么多的前置知識,入門門檻相對低一些。即使以可計算理論(Computability Theory)這種理論性比較強的課來說,其要求的知識廣度也不及深度學習。但此處也想給大家提個醒,深度學習沒有必要等到掌握所有領域知識再開始,應該一邊學習一邊補充所需知識。
2. 知識更新速度快,時效性強
雖然深度學習的前身,也就是感知機(perceptron)已經(jīng)有超過50年的歷史,但深度學習還屬于一個飛速發(fā)展的新興領域,因此很多經(jīng)典的理論/技巧很快就被推翻。舉兩個例子:
激活函數(shù)的選擇:在很多深度學習的教科書中,尤其是10年以前的教科書中都還依然把Sigmoid當作默認的激活函數(shù)。但事實上,整流函數(shù)(ReLu)以及其拓展變形函數(shù),如Leaky ReLu早就成為了主流的深度學習激活函數(shù)。但因為知識的滯后性,很多課程/書籍甚至都沒有介紹ReLu的章節(jié)。
鞍點和全局最?。洪L年以來學術界把深度學習使用BP算法難以得到全局最優(yōu)解的原因歸結于存在大量的局部最小(local minimum)導致梯度下降失敗,直到最近幾年大家才比較一致的認同可能問題出在了大量鞍點(saddle points)導致了梯度下降法在Hessian矩陣的條件數(shù)很差時在高維空間失效。
大部分計算機科學課程有可以自洽的經(jīng)典體系,短時間內理論上不會發(fā)生很大的變化。你看幾年前的操作系統(tǒng)書籍或者課程,和現(xiàn)在的主流知識變化不是很大。而深度學習領域基本上每過一陣子都會出個大新聞,然后大家才發(fā)現(xiàn)一直都做錯了。所以深度學習課程很講究時效性,超過3年以上的書籍和課程或多或少都有錯誤或者不準確的地方,切記切記!
但換個角度思考,這也說明了深度學習還有很大的潛力,可以研究的方向很多。這兩年很火的多任務學習(multi-task learning), 遷移學習(transfer learning), 對抗生成網(wǎng)絡(GAN)都給了研究者更多的挖坑方向。
3. 理論證明比較薄弱,高度依賴黑科技(調參技巧)
承接第二點,深度學習缺乏從數(shù)學角度的自洽解釋,而且好用有效的深度學習模型其實還是大量依靠人為進行構建和參數(shù)調整。換句話說,深度學習還沒有一套完整的,自上而下的操作流程,現(xiàn)階段還大量依靠人為的選擇、調整、優(yōu)化。這也是為什么深度學習被叫做煉丹,而從業(yè)人員被叫做煉丹師。
深度學習的調參技巧早就被外界所詬病,除了選擇良好的激活函數(shù),小心的設計網(wǎng)絡結構,還要給隱藏單元加入噪音(如Dropout),使用合適的正則化方法等。其中每一項展開都可以算作一個領域,更別提把這些步驟整合時可能造成指數(shù)級的選擇困難。高度的不確定性使得課程設置變得很難。
Goodfellow在《深度學習》一書中就指出深度學習中使用的優(yōu)化算法幾乎都沒有理論保證,我們只有不斷進行強假設限制得到一些理論保證。不僅僅是優(yōu)化,深度學習作為一種表示學習(representation learning),對于特征的提取和解釋也只有非常有限的解釋性。同理,剛剛提到的dropout操作,其使用的權重縮放推斷(weight scaling inference)也是一種經(jīng)驗科學沒有理論的背書,但因為效果真的很好所以在該領域得到了廣泛應用。
深度學習現(xiàn)階段作為一門經(jīng)驗科學,從課程設置角度來說面臨一個尷尬的局面。如果只講理論,那么實用性很低。而如果只講實際技巧,這又太不像一門專業(yè)科學無法自洽。這也是深度學習和其他計算機領域的一個顯著不同,某種意義上說深度學習的實用性走在了理論性前面。這使得深度學習從授課角度來說很難,舉兩個典型的例子:
Neural Networks for Machine Learning | Coursera: Geof Hinton的課偏理論,輕實踐
Deep Learning | Coursera: Andrew Ng的課程偏實踐,輕理論
可以看出,深度學習對授課教師也提出了很高的要求。如果工程性太強那么理論很薄弱像空中樓閣,而太理論缺乏實踐技巧又比較像屠龍之技。而其他計算機課程基本都已經(jīng)有了一個比較好的自洽體系,能在理論和實踐中達到一個不錯的平衡。
作為經(jīng)驗科學,那實驗必不可少。但這對于學校/教育機構來說也面臨一個成本問題,是否有能力提供足夠的軟硬件支持,即學生是否可以在注冊期間使用服務器/GPU。大部分深度學習的項目都無法在個人電腦上完成,尤其個人筆記本的主流操作系統(tǒng)還是Windows。這一點對于本科學生來說更不友好,因為從成本角度學校很難提供硬件支持,也沒有導師愿意購買設備供大家使用。我個人比較看好的方法還是學校和云服務廠商合作,保證注冊課程的學生在上課期間可以有一定時長的GPU使用機會。
4. 高學科交叉度,導致領域課程設置細分
深度學習的廣泛使用使得其課程設置更加細分化。其他計算機課程一般都叫做XX入門,中級XX,和高級XX。深度學習不同,作為一門工具學科既可以用來做視覺(Computer Vision),也可以做自然語言處理(NLP),還可以做很多其他的領域,導致了其課程設置非常細。以多倫多大學2017年的研究生博士課程為例,和深度學習相關的課程就超過了7門:
Topics in Machine Learning: Scalable & Flexible Models of Uncertainty
Topics in Machine Learning: Learning Discrete Latent Structure
Machine Learning and Data Mining
Machine Learning in Computer Vision
Natural Language Computing
Topics in Computational Molecular Biology: Computational Methods in Medicine
Advanced Machine Learning
這些課程中1,2,3,7是比較傳統(tǒng)的機器學習課程,4, 5, 6分別是機器學習/深度學習在機器視覺,自然語言處理,和計算生物方向的應用。以前系里面的課還有 用深度學習+機器視覺做無人車等。而且統(tǒng)計系或者運籌學系又都有機器學習/深度學習的課程,這再一次證明了深度學習高交叉性、高遷移性的特點。
換個角度思考,深度學習的課程往往只有在入門階段才是純深度學習,進階學習往往都會將其應用于某個特定領域解決實際問題。這個和其他領域的計算機課程不同,你很少見到把操作系統(tǒng)或者數(shù)據(jù)庫領域的知識大規(guī)模的遷移到其他學科上的案例。
5. 總結
從以上分析不難看出,深度學習作為一個年輕的學科,和其他成熟的計算機課程還是有很大不同。比較明顯的就是因為其較高的前置背景,導致其入門要求高,一般是高年級課程。其次就是因為其并未形成完整自洽的理論體系,導致系統(tǒng)的課程設置很難,而且有很多人為的黑科技。但即使如此,深度學習的有效性已經(jīng)在多個交叉領域被證明,這也導致了其課程設置非常細而且可覆蓋的話題比較靈活。深度學習的特別之處告訴我們:
掌握好基礎知識,但不要矯枉過正,買櫝還珠
不斷更新知識,追蹤主流熱點,不要抱著固有的觀念
上手調參,有時候實踐比理論更重要,至少在現(xiàn)階段的深度學習領域
專注特定領域,不要試圖短時間內能成為橫跨多個領域的專家
而從講課的角度來說,深度學習的課程很難掌握好理論與實踐的平衡,而且必須時時刻刻跟蹤前沿熱點進展,這樣才能防止被聽眾打臉。
Copyright ? 2020-2023 山東行知科教儀器設備有限公司 版權所有 ?備案號:魯ICP備16020776號-2
地址:高新區(qū)萬福辦事處吳拐行政村 電話:0530-5837666 郵箱:2586826320@qq.com
關注我們