美女a毛片,国内黄色一级精品,亚洲人成在线观看一区二区,亚洲a网站,殴美一级视频,日韩一区二区免费,国产www色

?
神經(jīng)網(wǎng)絡(luò)可解釋性、深度學(xué)習(xí)新方法,2020 年 A
發(fā)布時間:2025-02-28 18:28

  作為 2019 年最后一場重量級的人工智能國際學(xué)術(shù)頂會,NeurIPS 2019 所反映出的一些人工智能研究趨勢,例如神經(jīng)網(wǎng)絡(luò)可解釋性、深度學(xué)習(xí)新方法、神經(jīng)科學(xué)等等,想必對于大家在新的一年開展研究工作,具有一定的借鑒和參考價值。

  來自英偉達(dá)的工程師小姐姐 Chip Huyen 基于自己的參會體驗(yàn),較為全面地總結(jié)了 NeurIPS 2019 反映的關(guān)鍵研究趨勢。

  Facebook 的人工智能總監(jiān)表達(dá)了對算力達(dá)到瓶頸的擔(dān)憂。人工智能企業(yè)不應(yīng)該僅僅寄希望于通過更大的深度學(xué)習(xí)系統(tǒng)來不斷取得進(jìn)步。因?yàn)椤脯F(xiàn)在,一個實(shí)驗(yàn)可能要花費(fèi)七位數(shù)的金錢,但現(xiàn)實(shí)情況不會讓這一數(shù)字增長到九位數(shù)或十位數(shù),因?yàn)闆]人負(fù)擔(dān)得起這樣的開銷」

  針對這一趨勢,Yann Lecun 談到:「我不明白,為什么突然之間,我們看到了許多新聞和推特聲稱人工智能的進(jìn)步正在放緩,或稱深度學(xué)習(xí)正在碰壁。在過去的五年中,我?guī)缀踉诿恳淮窝葜v上都會指出這兩個局限和挑戰(zhàn)。所以,認(rèn)識到這些局限性并不是什么新鮮事。而且,實(shí)際上人工智能的發(fā)展并沒有慢下來」。

  在這種大環(huán)境下,我們很高興看到探究深度學(xué)習(xí)背后的理論(深度學(xué)習(xí)為何有效?它是如何工作的?)的論文的數(shù)量迎來了爆炸式增長。

  他們認(rèn)為一致收斂理論本身并不能解釋深度學(xué)習(xí)的泛化能力。隨著數(shù)據(jù)集的規(guī)模增大,泛化差異(Generalization Gap,模型在見過和未見過的數(shù)據(jù)上的性能差異)的理論界限也會增大,而經(jīng)驗(yàn)泛化差異則會減小。

  神經(jīng)切線核(NTK,)是近年來提出的一個研究方向,旨在理解神經(jīng)網(wǎng)絡(luò)的優(yōu)化和泛化。有關(guān) NTK 的討論多次出現(xiàn)在本屆 NeurIPS 的亮點(diǎn)演講中,我在 NeurIPS 期間也與其他人多次談到 NTK。

  Arthur Jacot 等人提出了「全連接的神經(jīng)網(wǎng)絡(luò)等價于寬度無限時的高斯過程」這一眾所周知的概念,能夠在函數(shù)空間而不是參數(shù)空間中研究它們的訓(xùn)練動力學(xué)(Training Dynamics)。他們證明了「在人工神經(jīng)網(wǎng)絡(luò)參數(shù)梯度下降的過程中,網(wǎng)絡(luò)函數(shù)(將輸入向量映射到輸出向量)遵循關(guān)于一種新的核——NTK的函數(shù)代價的核梯度」。

  他們還表明,當(dāng)我們使用梯度下降法訓(xùn)練一個有限層版本的 NTK 時,其性能將收斂到寬度無限的 NTK 上,然后在訓(xùn)練中性能保持不變。

  然而,許多人認(rèn)為 NTK 不能完全解釋深度學(xué)習(xí)。一個神經(jīng)網(wǎng)絡(luò)要接近NTK 狀態(tài)需要具備學(xué)習(xí)率小、初始化寬度大、無權(quán)值衰減等超參數(shù)設(shè)置,而在實(shí)際訓(xùn)練中并不經(jīng)常使用這樣的設(shè)置。

  NTK 的觀點(diǎn)還認(rèn)為,神經(jīng)網(wǎng)絡(luò)只會像核方法一樣泛化,但根據(jù)我們的經(jīng)驗(yàn)來看,它們可以更好地泛化。

  那么,增加深度能讓它更有效率嗎?他們說明了,在高斯混合模型的最優(yōu)貝葉斯分類的情況下,這些函數(shù)可以用帶有單個隱層的神經(jīng)網(wǎng)絡(luò)中的 o (exp (n))個節(jié)點(diǎn)以任意精度近似,而在兩層網(wǎng)絡(luò)中只需要用 o (n)個節(jié)點(diǎn)近似。

  圖 2:測試準(zhǔn)確率于批處理大小、學(xué)習(xí)率的誒關(guān)系。第四行分別是(1)使用 CIFAR-10 數(shù)據(jù)集訓(xùn)練的 ResNet-110 模型(2)使用 CIFAR-100 數(shù)據(jù)集訓(xùn)練的 ResNet-110 模型(3)使用 CIFAR-10 數(shù)據(jù)集訓(xùn)練的 VGG-19 模型(4)使用 CIFAR-100 數(shù)據(jù)集訓(xùn)練的 VGG-19 模型。每條曲線都是根據(jù) 20 個網(wǎng)絡(luò)的情況綜合繪制而出。

  與此同時,Yuanzhi Li 等人的論文「Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks」指出:「一個具有較大的初始學(xué)習(xí)率并使用退火算法訓(xùn)練的雙層網(wǎng)絡(luò),比使用較小的初始學(xué)習(xí)率訓(xùn)練的相同的網(wǎng)絡(luò)具有更好的泛化性能。這是因?yàn)閷W(xué)習(xí)率較小的模型首先會記憶低噪聲、難以擬合的模式,它在較高噪聲、易于擬合的情況下的泛化性能比學(xué)習(xí)率較大的情況下差一些。」

  盡管這些理論分析非常吸引人,也很重要,但是很難講它們聚合成一個大的研究體系,因?yàn)檫@其中的一個研究都集中在整個系統(tǒng)的一個較為狹窄的方面。

  在今年的 NeurIPS 上,研究者們提出了一系列新穎的方法,而不僅僅是在別人的工作上疊加上新的網(wǎng)絡(luò)層。我感興趣的三個方向是:貝葉斯學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò),以及凸優(yōu)化。

  根據(jù) Khan 的說法,深度學(xué)習(xí)使用的是一種「試錯」的方法,我們通過實(shí)驗(yàn)看看會得到什么結(jié)果,然而貝葉斯原理迫使你事先考慮一個假設(shè)(先驗(yàn))。

  與常規(guī)的深度學(xué)習(xí)相比,貝葉斯深度學(xué)習(xí)有兩個主要的優(yōu)勢:非確定性估計(jì)以及在小數(shù)據(jù)集上更好的泛化性能。

  在現(xiàn)實(shí)世界的應(yīng)用中,讓系統(tǒng)能夠進(jìn)行預(yù)測是遠(yuǎn)遠(yuǎn)不夠的。弄明白每個預(yù)測的可靠性是很重要的。例如,對癌癥進(jìn)行預(yù)測時,可靠性為 50.1% 和可靠性為 99.9% 時的治療方案是不同的。在貝葉斯學(xué)習(xí)中,非確定性估計(jì)是一個內(nèi)在的特質(zhì)。

  傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)給出的是單點(diǎn)估計(jì)——它們使用一組權(quán)值針對一個數(shù)據(jù)點(diǎn)輸出一個預(yù)測。另一方面,貝葉斯神經(jīng)網(wǎng)絡(luò)使用一個關(guān)于網(wǎng)絡(luò)權(quán)重的概率分布,并輸出該分布中所有權(quán)重組合的平均預(yù)測值,這與對許多神經(jīng)網(wǎng)絡(luò)求平均的效果相同。

  訓(xùn)練具有數(shù)百萬參數(shù)的貝葉斯神經(jīng)網(wǎng)絡(luò)仍然需要非常大的計(jì)算開銷。要想使網(wǎng)絡(luò)收斂到一個后驗(yàn)上可能需要花費(fèi)數(shù)周的時間,因此諸如變分推斷這樣的近似方法越來越流行。本屆 NeurIPS 的「概率方法-變分推斷」環(huán)節(jié)共有 10 篇論文與這類變分貝葉斯方法有關(guān)。

  多年來,我經(jīng)常談到:圖論是在機(jī)器學(xué)習(xí)領(lǐng)域最被低估的課題之一。我很高興有關(guān)圖的工作在本屆 NeurIPS 上大放異彩。

  「圖表征學(xué)習(xí)」是本屆 NeurIPS 上最受歡迎的研討會。令人驚訝的是,該領(lǐng)域已經(jīng)取得了如此大的進(jìn)步。時間回到 2015 年,當(dāng)我在實(shí)習(xí)期間開始研究圖神經(jīng)網(wǎng)絡(luò)時,我沒有想到會有如此多的研究人員參與到這個領(lǐng)域中來。

  圖是適用于許多種數(shù)據(jù)(例如,社交網(wǎng)絡(luò)、知識庫、游戲的狀態(tài))的優(yōu)雅而自然的表征形式。用于推薦系統(tǒng)的「用戶-物品」數(shù)據(jù)可以被表示為一個二分圖,其中一個不相交的集合由用戶組成,另一個由物品組成。

  圖也可以表征神經(jīng)網(wǎng)絡(luò)的輸出。正如 Yoshua Bengio 在他的演講中提醒人們的那樣:任何聯(lián)合分布都可以通過因子圖來表示。

  這使得圖神經(jīng)網(wǎng)絡(luò)能夠完美地適應(yīng)組合優(yōu)化(例如,旅行商問題、任務(wù)調(diào)度問題)、身份匹配(在這種問題中 Twitter 用戶和 Facebook 的用戶是一樣的嗎?)、推薦系統(tǒng)等任務(wù)。

  目前最流行的圖神經(jīng)網(wǎng)絡(luò)是圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN),這是意料之中的,因?yàn)閳D和卷積都可以編碼局部的信息。卷積以尋找輸入中鄰近部分之間的關(guān)系為目標(biāo)編碼一種偏置。而圖通過邊對輸入中關(guān)系最密切的部分進(jìn)行編碼。

  圖 4:(左圖)二分圖 St=(G,C,E,V)有 n=3 個變量和 m=2 個常量。(右圖)用于將策略πθ(ast)參數(shù)化的二分圖 GCNN 架構(gòu)。

  我一直默默推崇Stephen Boyd 關(guān)于凸優(yōu)化的工作,所以很高興看到它在 NeurIPS 上越來越受歡迎。在今年的 NeurIPS 上,有32篇論文是關(guān)于這個主題的。

  Stephen Boyd 和 j. Zico Kolter 的實(shí)驗(yàn)室也展示了他們的論文「Differentiable Convex Optimization Layers」,該論文說明了如何通過凸優(yōu)化問題的解來進(jìn)行微分,這使得將它們可以被嵌入可微分的程序(如神經(jīng)網(wǎng)絡(luò))并根據(jù)數(shù)據(jù)進(jìn)行學(xué)習(xí)。

  凸優(yōu)化問題之所以吸引人,是因?yàn)樗鼈兛梢员痪_地求解(可以實(shí)現(xiàn)1e-10的容錯率),而且速度很快。它們也不會產(chǎn)生奇怪的或意料之外的輸出,而這對于現(xiàn)實(shí)世界中的應(yīng)用是至關(guān)重要的。盡管在真實(shí)場景中遇到的許多問題是非凸的,但是將它們分解為一系列凸問題可以達(dá)到很好的效果。

  神經(jīng)網(wǎng)絡(luò)也使用凸優(yōu)化的算法進(jìn)行訓(xùn)練。然而,神經(jīng)網(wǎng)絡(luò)重點(diǎn)強(qiáng)調(diào)以一種端到端的方式從頭進(jìn)行學(xué)習(xí),而凸優(yōu)化問題的應(yīng)用則顯式地使用領(lǐng)域特定的知識對系統(tǒng)建模。如果能夠以凸方法對系統(tǒng)進(jìn)行顯式建模,那么通常所需的數(shù)據(jù)就會少得多。關(guān)于可微凸優(yōu)化層的工作是將端到端學(xué)習(xí)和顯式建模的優(yōu)勢結(jié)合起來的一種方法。

  當(dāng)你想要控制一個系統(tǒng)的輸出時,凸優(yōu)化特別有用。例如,SpaceX 公司使用凸優(yōu)化來發(fā)射火箭,BlackRock公司將它用于交易算法??吹酵箖?yōu)化在深度學(xué)習(xí)中的應(yīng)用真的很酷,就像現(xiàn)在的貝葉斯學(xué)習(xí)一樣。

  Bengio 的演講將「意識」引入了主流的機(jī)器學(xué)習(xí)詞匯體系中。Bengio 提出的「意識」概念的核心是注意力。他將機(jī)器注意力機(jī)制與我們的大腦選擇分配注意力的方式進(jìn)行了比較:「機(jī)器學(xué)習(xí)可以用來幫助腦科學(xué)家更好地理解意識,但我們對意識的理解也可以幫助機(jī)器學(xué)習(xí)發(fā)展出更好的能力」。

  根據(jù) Bengio 的說法,如果我們希望機(jī)器學(xué)習(xí)算法能夠泛化到分布之外的樣本上,那么受意識啟發(fā)的方法可能是一種解決方案。

  圖 8:將機(jī)器學(xué)習(xí)用于意識&將意識用于機(jī)器學(xué)習(xí)——(1)形式化定義并測試特定的意識的假設(shè)函數(shù)(2)揭開意識的神秘面紗(3)從計(jì)算和統(tǒng)計(jì)的角度(例如,系統(tǒng)的泛化)理解意識演化的優(yōu)勢(4)將這些優(yōu)勢應(yīng)用于學(xué)習(xí)智能體。

  在本屆大會上,我最喜歡 Aguera y Arcas 的演講。他的演講在理論上非常嚴(yán)謹(jǐn),但同時也是可行的。他認(rèn)為通過優(yōu)化方法不足以獲得類似于人類的智力:「優(yōu)化不是生命體工作的方式,大腦不僅僅是在評估一個函數(shù)。它們會發(fā)展。它們會自我修正。他們從經(jīng)驗(yàn)中學(xué)習(xí)。僅僅通過一個函數(shù)并不能包含這些東西」。

  他呼吁人們研究「一種更通用的、受生物學(xué)啟發(fā)的突觸更新規(guī)則,它允許使用損失函數(shù)和梯度下降法,但并不要求一定要這么做」。

  NeurIPS 上的這一趨勢與我觀察到的現(xiàn)象不謀而合:很多人工智能界的研究人員正轉(zhuǎn)而研究神經(jīng)科學(xué)。他們把神經(jīng)科學(xué)重新帶回了機(jī)器學(xué)習(xí)領(lǐng)域。

  2.科學(xué)研究應(yīng)該是一個從假設(shè)到實(shí)驗(yàn)的過程,而如今的人工智能研究則往往是先做實(shí)驗(yàn)然后證明結(jié)果成立。

  讓我們從更宏觀的角度看看本屆 NeurIPS 大會上的論文都與什么主題相關(guān)。首先,我使用 Vennclods 將 1,011 份 NeurIPS 2018 的論文和 1,428 份 NeurIPS 2019 的論文的標(biāo)題進(jìn)行了可視化。中間黑色的部分是在這兩年都十分常見的論文關(guān)鍵詞的列表。

  接著,如下圖所示,我計(jì)算出了這些關(guān)鍵詞從 2018年到2019年的百分比變化。例如,如果在2018年,所有被接收的論文中有1%包含關(guān)鍵詞「X」,而在2019年,這個數(shù)字是 2% ,那么這一比例的變化是(2-1)/ 1=100% 。在下圖中,我將絕對比例變化在 20% 以上的關(guān)鍵詞繪制了出來。

  即使是在機(jī)器人領(lǐng)域之外,強(qiáng)化學(xué)習(xí)也得到了進(jìn)一步發(fā)展。具有顯著正向變化的關(guān)鍵詞有:多臂、反饋、遺憾值、控制。

  與硬件相關(guān)的關(guān)鍵詞也在增加,這表明有更多考慮到硬件的算法誕生。這是解決「硬件成為機(jī)器學(xué)習(xí)瓶頸」這一問題的方法。

  「元」這一關(guān)鍵詞在今年增長的最多。詳情請參閱 Jesse Mu 的「Meta-meme」()

  盡管「貝葉斯」一詞的比例下降了,但「非確定性」卻上升了。去年,有許多論文使用了貝葉斯原理,但并不是將其運(yùn)用在深度學(xué)習(xí)中。

  31 張海報(bào)出現(xiàn)在了本屆 NeurIPS 的「創(chuàng)意和設(shè)計(jì)中的機(jī)器學(xué)習(xí)」研討會上。一些人告訴我這是他們在本屆大會上最喜歡的環(huán)節(jié)。

  為「Good Kid」樂隊(duì)在閉幕宴會上的演出打 call!如果你還沒有欣賞過他們的音樂作品,可以去 Spotify 上聽一聽。

  除此之外,本屆NeurIPS 的火爆氛圍也相當(dāng)引人關(guān)注,大家可回顧《學(xué)術(shù)會議,1.3 萬人參加,我們該慶賀還是反思?》一文。

  無論從知識的角度還是從社交的角度來說,NeurIPS 都勢不可擋。我不認(rèn)為任何人能夠閱讀16,000頁的會議記錄。海報(bào)展人滿為患,這使得我們很難與作者交談。毫無疑問,我錯過了很多。

  然而,會議的大規(guī)模召開也意味著匯聚了許多的研究方向和相關(guān)的研究人員。讓我能夠了解自己研究的分支領(lǐng)域之外的工作,能夠向那些研究背景和興趣與我不同的研究人員學(xué)習(xí),這種感覺很好。

  我經(jīng)常聽到年輕的研究人員擔(dān)心:只有加入大型研究實(shí)驗(yàn)室,才能獲得計(jì)算資源。但 NeurIPS 證明了:你可以在無需擔(dān)心數(shù)據(jù)和計(jì)算問題的情況下做出重要的貢獻(xiàn)。

  在我參加的 NewInML 圓桌討論上,有人說他不知道 NeurIPS 上的大多數(shù)論文如何被應(yīng)用到生產(chǎn)環(huán)節(jié)中去。Neil Lawence 指出,也許他應(yīng)該考慮參加其它會議。

  總的來說,我在 NeurIPS 上度過了一段美好的時光,并計(jì)劃明年急需參會。然而,對于那些新加入機(jī)器學(xué)習(xí)研究社區(qū)的人來說,我建議他們將 ICLR 作為參加的第一個學(xué)術(shù)會議。ICLR 的規(guī)模更小、時間更短、也更加面向?qū)嶋H應(yīng)用。明年,ICLR 將在埃塞俄比亞召開,那是一個神奇的國度!

?
? 2010-2015 河北j9國際站(中國)集團(tuán)官網(wǎng)科技有限公司 版權(quán)所有  網(wǎng)站地圖
乐安县| 南城县| 福海县| 无为县| 嘉祥县| 上犹县| 蒲城县| 龙泉市| 东乡| 揭东县| 德化县| 定西市| 长岭县| 江门市| 叶城县| 乌拉特中旗| 大同市| 威海市| 樟树市| 普兰店市| 胶州市| 达尔| 巍山| 疏附县| 巴南区| 咸丰县| 盐城市| 深州市| 陆丰市| 苍梧县| 东海县| 安仁县| 富裕县| 离岛区| 姚安县| 安达市| 乐山市| 平舆县| 府谷县| 财经| 德安县|