谷歌李飛飛:我們依舊站在人工智能研究的起點
說起人工智能,孕育了卷積神經(jīng)網(wǎng)絡和深度學習算法的 ImageNet 挑戰(zhàn)賽恐怕是世界上最著名的 AI 數(shù)據(jù)集。8 年來,在 ImageNet 數(shù)據(jù)集的訓練下,人工智能對于圖像識別的準確度整整提高了 10 倍,甚至超越了人類視覺本身。
然而,AI 領域的科學家們并沒有停下前進的腳步。上個周末,人工智能領域最卓越的科學家之一:斯坦福大學終身教授、谷歌云首席科學家李飛飛在未來論壇年會上,為我們做了一場名為“超越 ImageNet 的視覺智能”的精彩演講。她告訴我們,AI 不僅僅能夠精準辨認物體,還能夠理解圖片內(nèi)容、甚至能根據(jù)一張圖片寫一小段文章,還能“看懂”視頻……
我們都知道,地球上有很多種動物,這其中的絕大多數(shù)都有眼睛,這告訴我們視覺是最為重要的一種感覺和認知方式。它對動物的生存和發(fā)展至關重要。
所以無論我們在討論動物智能還是機器智能,視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當中,我們目前了解最深入的是人類的視覺系統(tǒng)。從 5 億多年前寒武紀大爆發(fā)開始,我們的視覺系統(tǒng)就不斷地進化發(fā)展,這一重要的過程得以讓我們理解這個世界。而且視覺系統(tǒng)是我們大腦當中最為復雜的系統(tǒng),大腦中負責視覺加工的皮層占所有皮層的 50%,這告訴我們,人類的視覺系統(tǒng)非常了不起。
寒武紀物種大爆發(fā)
一位認知心理學家做過一個非常著名的實驗,這個實驗能告訴大家,人類的視覺體系有多么了不起。大家看一下這個視頻,你的任務是如果看到一個人的話就舉手。每張圖呈現(xiàn)的時間是非常短的,也就是 1/10 秒。不僅這樣,如果讓大家去尋找一個人,你并不知道對方是什么樣的人,或者 TA 站在哪里,用什么樣的姿勢,穿什么樣的衣服,然而你仍然能快速準確地識別出這個人。
1996 年的時候,法國著名的心理學家、神經(jīng)科學家 Simon J. Thorpe 的論文證明出視覺認知能力是人類大腦當中最為了不起的能力,因為它的速度非?,大概是 150 毫秒。在 150 毫秒之內(nèi),我們的大腦能夠把非常復雜的含動物和不含動物的圖像區(qū)別出來。那個時候計算機與人類存在天壤之別,這激勵著計算機科學家,他們希望解決的最為基本的問題就是圖像識別問題。
在 ImageNet 之外,在單純的物體識別之外,我們還能做些什么?
過了 20 年到現(xiàn)在,計算機領域內(nèi)的專家們也針對物體識別發(fā)明了幾代技術,這個就是眾所周知的 ImageNet。我們在圖像識別領域內(nèi)取得了非常大的進步:8 年的時間里,在 ImageNet 挑戰(zhàn)賽中,計算機對圖像分類的錯誤率降低了 10 倍。同時,這 8 年當中一項巨大的革命也出現(xiàn)了: 2012 年,卷積神經(jīng)網(wǎng)絡(convolutionary neural network)和 GPU(圖形處理器,Graphic Processing Unit)技術的出現(xiàn),對于計算機視覺和人工智能研究來說是個非常令人激動的進步。作為科學家,我也在思考,在 ImageNet 之外,在單純的物體識別之外,我們還能做些什么?
8年的時間里,在ImageNet挑戰(zhàn)賽中,計算機對圖像分類的錯誤率降低了10倍。
通過一個例子告訴大家:兩張圖片,都包含一個動物和一個人,如果只是單純的觀察這兩張圖中出現(xiàn)的事物,這兩張圖是非常相似的,但是他們呈現(xiàn)出來的故事卻是完全不同的。當然你肯定不想出現(xiàn)在右邊這張圖的場景當中。
這里體現(xiàn)出了一個非常重要的問題,也就是人類能夠做到的、最為重要、最為基礎的圖像識別功能——理解圖像中物體之間的關系。為了模擬人類,在計算機的圖像識別任務中,輸入的是圖像,計算機所輸出的信息包括圖像中的物體、它們所處的位置以及物體之間的關系。目前我們有一些前期工作,但是絕大多數(shù)由計算機所判斷的物體之間的關系都是十分有限的。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字