? 2010-2015 河北j9國(guó)際站(中國(guó))集團(tuán)官網(wǎng)科技有限公司 版權(quán)所有
網(wǎng)站地圖
雷鋒網(wǎng) AI 科技評(píng)論按:熱熱鬧鬧的機(jī)器學(xué)習(xí)浪潮給學(xué)術(shù)研究和實(shí)際應(yīng)用都帶來(lái)了很多新意,似乎我們可以就這樣樂(lè)觀地乘著機(jī)器學(xué)習(xí)的列車(chē)駛向未來(lái)。記者、科幻小說(shuō)作者 Cory Doctorow近期的一篇文章就提出了一種角度新穎且有趣的質(zhì)疑。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
我成為一個(gè)現(xiàn)代科技的愛(ài)好者、宣揚(yáng)者已經(jīng)好幾十年了,我也閱讀過(guò)無(wú)數(shù)的發(fā)人深省的、影響深遠(yuǎn)的科技批評(píng)觀點(diǎn)。不過(guò),這幾年的機(jī)器學(xué)習(xí)要遠(yuǎn)比其他的科技趨勢(shì)火熱許多。從大眾媒體報(bào)道、從企業(yè)宣傳上來(lái)看,許多曾經(jīng)在理想中的高科技產(chǎn)品、高科技生活方式,都會(huì)借助機(jī)器學(xué)習(xí)的力量來(lái)到我們身邊。
但在這所有美好的愿景背后,也有一些質(zhì)疑的聲音讓人反復(fù)咀嚼。蒙特利爾麥吉爾大學(xué)的 Molly Sauter 在 2017 年寫(xiě)了一篇略微奇怪但富有詩(shī)意的文章《Instant Recall》,里面有這么一句「機(jī)器學(xué)習(xí)從本質(zhì)上來(lái)講是保守的」。
機(jī)器學(xué)習(xí)從本質(zhì)上來(lái)講是保守的,它沒(méi)法改變,它只能默認(rèn)未來(lái)和過(guò)去是一樣的。如果你給你的伴侶發(fā)消息時(shí)候用過(guò)「Hey darling」這個(gè)開(kāi)頭,那下次你一打出來(lái)「Hey」,「darling」就會(huì)出現(xiàn)在自動(dòng)補(bǔ)全列表的第一個(gè)位置上,即便這次你可能是要提分手的。如果你打的某個(gè)詞是你自己此前從未用過(guò)的,那么自動(dòng)補(bǔ)全會(huì)根據(jù)所有用戶(hù)的輸入統(tǒng)計(jì)數(shù)據(jù),把最經(jīng)常出現(xiàn)的詞推薦給你??赡艽蠖鄶?shù)時(shí)候這不會(huì)造成什么問(wèn)題,但是 2018 年 7 月我給看孩子的保姆(babysitter)發(fā)消息打到「Can you sit(帶)」的時(shí)候,它接下來(lái)推薦的自動(dòng)補(bǔ)全是「on my face and」,這就非常糟糕了,我把這事發(fā)到網(wǎng)上以后還引起了不小的爭(zhēng)論。
這種保守性在每一個(gè)使用機(jī)器學(xué)習(xí)算法的推薦、推理系統(tǒng)里面都能看到:當(dāng)你在網(wǎng)上搜索「電冰箱」之后,算法就會(huì)給你打上「想買(mǎi)電冰箱」的標(biāo)簽,然后一直關(guān)注著這個(gè)「想買(mǎi)電冰箱」的身份的活動(dòng),在各種廣告位給你介紹各種電冰箱,即便你已經(jīng)買(mǎi)了也不會(huì)停止;或者在視頻網(wǎng)站純粹因?yàn)楹闷嫠阉髁四硞€(gè)冷門(mén)話(huà)題,大概了解了、覺(jué)得以后再不會(huì)看這個(gè)話(huà)題之后,它還是會(huì)反反復(fù)復(fù)給你推薦這個(gè)話(huà)題,因?yàn)樾枰笍?qiáng)化推薦你感興趣的內(nèi)容」;在社交平臺(tái)上關(guān)注一個(gè)人之后,它會(huì)給你推薦「相似的人」,即便你自己很明白你為什么沒(méi)關(guān)注他們。
不可否認(rèn),機(jī)器學(xué)習(xí)有很強(qiáng)的尋找關(guān)聯(lián)性的能力,比如機(jī)器學(xué)習(xí)可以自然地認(rèn)為「在很長(zhǎng)一段時(shí)間里張三的通訊錄里都存了李四的電話(huà)號(hào)碼和家庭住址,所以他們肯定是好朋友」;但機(jī)器學(xué)習(xí)并不能學(xué)到因果關(guān)系,所以實(shí)際上更容易出現(xiàn)的事情是,張三的通訊錄里存了李四的電話(huà)號(hào)碼和家庭住址,這是因?yàn)閺埲诟?、偷窺李四,然而 Facebook 掃描了張三的通訊錄以后,反而推薦李四把張三加為好友。
另外,機(jī)器學(xué)習(xí)也沒(méi)法提供可靠的推測(cè)意圖的工具——人類(lèi)學(xué)的一條基礎(chǔ)定理就是,「如果沒(méi)有對(duì)話(huà),那么意圖就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是這么說(shuō)的,如果你在觀察某個(gè)人,但你不讓他知道你在觀察他、他也不知道你在觀察他,那你就分辨不出他到底是為了暗示什么而「擠眼」還是只是累了所以「眨眼」。
說(shuō)到底,機(jī)器學(xué)習(xí)所能做的,是找到和它現(xiàn)在就能建模的東西類(lèi)似的東西。機(jī)器學(xué)習(xí)系統(tǒng)很擅長(zhǎng)找到和它們見(jiàn)過(guò)的車(chē)長(zhǎng)得類(lèi)似的車(chē),也擅長(zhǎng)找到和它們見(jiàn)過(guò)的人臉長(zhǎng)得類(lèi)似的人臉——這順便也用非常簡(jiǎn)單的到底解釋了為什么面部識(shí)別系統(tǒng)對(duì)于白人的臉識(shí)別準(zhǔn)確率更高,就是因?yàn)橥前兹巳ψ釉O(shè)計(jì)的系統(tǒng)、組織收集的數(shù)據(jù),所以見(jiàn)白人的臉見(jiàn)得更多而已。
機(jī)器學(xué)習(xí)的有害之處就是從這樣的「保守」傾向里逐漸滲透出來(lái)的。如果你設(shè)計(jì)一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)幫助警察預(yù)測(cè)他們應(yīng)該抓誰(shuí),系統(tǒng)肯定會(huì)建議抓「和已經(jīng)抓過(guò)的人類(lèi)似的人」。人權(quán)數(shù)據(jù)分析組織的 Patrick Ball 是這樣說(shuō)的:「給警察配備的預(yù)測(cè)系統(tǒng)預(yù)測(cè)不了犯罪,它只能預(yù)測(cè)警察會(huì)做什么」。
不過(guò),警察根據(jù)自己的判斷決定逮捕誰(shuí),和警察看到系統(tǒng)預(yù)測(cè)了一個(gè)人然后去逮捕他,兩者也有一些區(qū)別。對(duì)不愿意了解其中細(xì)節(jié)的局外人來(lái)說(shuō),算法做出的決定更容易顯得公眾,畢竟「數(shù)學(xué)是沒(méi)有歧視的」、「數(shù)學(xué)是不會(huì)說(shuō)謊的」。只可惜,機(jī)器學(xué)習(xí)里并不僅僅有數(shù)學(xué)而已,要說(shuō)「算法能客觀地反應(yīng)社會(huì)真實(shí)需求」,倒不如說(shuō)「算法能真實(shí)反應(yīng)設(shè)計(jì)它的人的觀念和習(xí)慣」。
英國(guó)有一個(gè)非醫(yī)療用藥分類(lèi)的例子。David Nutt 是一位杰出的精神藥理學(xué)家,英國(guó)議會(huì)請(qǐng)他對(duì)非醫(yī)療用途的精神類(lèi)藥品的危險(xiǎn)性排一個(gè)序,方便政府制定對(duì)應(yīng)的藥品管理政策。David Nutt 組織了一群專(zhuān)家做了詳細(xì)的討論,他們排了三個(gè)順序出來(lái):對(duì)使用者自己的危害的排序,對(duì)使用者的家庭的危害的排序,以及對(duì)社會(huì)整體的危害的排序。然后他對(duì)議會(huì)說(shuō),你只需要告訴我你最想保護(hù)哪一類(lèi),我就能給你一個(gè)準(zhǔn)確的排序。排序本身并不難,有很多基于實(shí)證的證據(jù)可以參考,得到準(zhǔn)確的結(jié)果;但「最想保護(hù)哪一類(lèi)」是人類(lèi)需要做的價(jià)值判斷,沒(méi)有「是否準(zhǔn)確」之分。
數(shù)據(jù)分析這件事由來(lái)已久,從第一種稅收的開(kāi)始就需要分析數(shù)據(jù);基于數(shù)據(jù)的科學(xué)和工具研究也為我們帶來(lái)了許許多多的便利。但是指望不可靠的黑盒子在來(lái)告訴我們應(yīng)該要什么、應(yīng)該怎么做,就會(huì)在「理智」和「進(jìn)步」的表面之下,實(shí)際帶來(lái)更多的固定流程化處理、讓人文關(guān)懷消失??茖W(xué)技術(shù)能做什么當(dāng)然重要,但更重要的是,它到底影響了誰(shuí)、又是在誰(shuí)的立場(chǎng)上做的這些決定。