數(shù)據(jù)孤島下的 AI 向善與聯(lián)邦遷移學(xué)習(xí)
9 月 4 日 - 6 日,由中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專(zhuān)委會(huì)主辦,浙江大學(xué)承辦的第九屆全國(guó)社會(huì)媒體處理大會(huì)(SMP 2020)在線上召開(kāi)。
會(huì)議集結(jié)了包括潘云鶴院士、楊強(qiáng)教授在內(nèi)的多名頂尖科學(xué)家、企業(yè)家與研究者,暢談從自然語(yǔ)言到大數(shù)據(jù)智能,從社交機(jī)器人到計(jì)算傳播學(xué),研究金融科技、教育以及技術(shù)投資等最前沿的科技話題。
作為特邀重磅嘉賓,香港科技大學(xué)計(jì)算機(jī)與工程系,同時(shí)也是微眾銀行首席人工智能執(zhí)行官的楊強(qiáng)教授,發(fā)表了題為 “數(shù)據(jù)孤島:AI 向善與聯(lián)邦遷移學(xué)習(xí)” 的演講。
楊強(qiáng)教授是人工智能業(yè)界的國(guó)際專(zhuān)家,在學(xué)術(shù)界和工業(yè)界做出了許多貢獻(xiàn),尤其近些年為中國(guó)人工智能和數(shù)據(jù)挖掘的發(fā)展起到了重要的作用。
他是國(guó)際人工智能界 “遷移學(xué)習(xí)” 領(lǐng)域的發(fā)起人和帶頭人,同時(shí)為國(guó)際 “聯(lián)邦學(xué)習(xí)” 的發(fā)起人之一及帶頭人。他當(dāng)選為國(guó)際人工智能協(xié)會(huì)(AAAI)院士,成為第一位獲此殊榮的華人,之后又當(dāng)選為 AAAI 執(zhí)行委員會(huì)委員,是首位 AAAI 華人執(zhí)委,同時(shí)他也是第一位擔(dān)任 IJCAI 理事會(huì)主席的華人科學(xué)家。
學(xué)術(shù)君就楊強(qiáng)教授在論壇中的精彩演講進(jìn)行整理,內(nèi)容略有刪改:
非常榮幸在 SMP 開(kāi)場(chǎng)的時(shí)候有機(jī)會(huì)和大家交流我最近的一些研究心得。題目的緣起是數(shù)據(jù)孤島和 AI,我們知道現(xiàn)在 AI 的熱潮主要來(lái)自深度學(xué)習(xí),而深度學(xué)習(xí)是離不開(kāi)大數(shù)據(jù)的,但是其實(shí)我們周邊更多看到的是小數(shù)據(jù),數(shù)據(jù)難以獲取、質(zhì)量差的情況普遍存在,這些稱(chēng)為 “數(shù)據(jù)孤島”,而且這些數(shù)據(jù)同時(shí)受到法律法規(guī)的限制,大部分不能進(jìn)行使用,由此對(duì)各行業(yè)研究有一定影響。
面臨這樣的挑戰(zhàn),我們做技術(shù)的研究人員應(yīng)該有對(duì)策,我們的對(duì)策有兩條,一條是面對(duì)小數(shù)據(jù),我們利用在別的地方獲取大數(shù)據(jù)的經(jīng)驗(yàn),把這種知識(shí)遷移到小數(shù)據(jù)領(lǐng)域來(lái)。而我們作為人在解決問(wèn)題的時(shí)候也經(jīng)常使用這么一種遷移能力,像在教育領(lǐng)域,就有一個(gè)詞叫 “學(xué)習(xí)遷移”,大致意思是學(xué)習(xí)能力比學(xué)習(xí)內(nèi)容更重要。
第二個(gè)辦法呢,我們知道知識(shí)常常散落在不同的地方,那么我們要把數(shù)據(jù)匯聚起來(lái),形成大數(shù)據(jù),往往是不能用簡(jiǎn)單粗暴的辦法把數(shù)據(jù)聚集在一起。那么有一個(gè)更巧妙的辦法,把模型建立起來(lái),但是不用把數(shù)據(jù)匯聚起來(lái)。這里舉一個(gè)例子,遷移學(xué)習(xí)就像一個(gè)老師在教一個(gè)學(xué)生,老師把自己的知識(shí)遷移到學(xué)生的大腦。那聯(lián)邦學(xué)習(xí)就像一群大學(xué)生形成一個(gè)學(xué)習(xí)小組,來(lái)共同解決一個(gè)問(wèn)題,大家都是單獨(dú)的研究人員,但是在合作的時(shí)候形成互補(bǔ),使得 1+1>2。那么今天的主題就是小數(shù)據(jù)能不能聚合成大數(shù)據(jù)。
首先是“ 數(shù)據(jù)不動(dòng),模型動(dòng) ”的思想,意思是說(shuō)把數(shù)據(jù)保留在本地,那么模型參數(shù)可以在加密的狀態(tài)下進(jìn)行溝通,最后希望得到的模型的效果和這些數(shù)據(jù)物理聚合在一起的效果是差不多的,有幾種辦法可以達(dá)到這一點(diǎn)。一種辦法是按樣本分割,橫向切割數(shù)據(jù),為了把所使用的數(shù)據(jù)量擴(kuò)大,在本地建立帶有參數(shù)的模型,把這些參數(shù)加密,然后整合到中心服務(wù)器,在加密的情況下進(jìn)行操作。
除了橫向切割,還有縱向切割數(shù)據(jù),不同的數(shù)據(jù)集不同點(diǎn)在于特征不一樣。比如對(duì)于一家醫(yī)院,它擅長(zhǎng)做 CT 掃描,另一家醫(yī)院擅長(zhǎng)做核酸檢測(cè),如果將兩者合起來(lái),特征空間就會(huì)變大,我們的模型也會(huì)變好,這種合并并沒(méi)有增加樣本量,因此叫做縱向。
聯(lián)邦學(xué)習(xí)是一種手段,能夠讓不同的數(shù)據(jù)集合理合法合規(guī)地把模型建立起來(lái),同時(shí)盡量不讓數(shù)據(jù)出本地,讓參數(shù)保密。由此也出現(xiàn)一些研究問(wèn)題,比如算法是否合規(guī),是否安全?若有壞人是參與方,我們是否能識(shí)別出來(lái),能否防御?除此外,算法是加密條件下的分布式機(jī)器學(xué)習(xí),那還需要考慮兩個(gè)數(shù)據(jù)集不是同構(gòu)或同分布的問(wèn)題。
一個(gè)技術(shù)的興起離不開(kāi)大范圍的應(yīng)用,所以我們建立了一個(gè)聯(lián)盟機(jī)制,它需要多個(gè)參與方的參與,而擁有數(shù)據(jù)孤島的參與方越早參與越有利。首先加入聯(lián)盟,需要參與到訓(xùn)練聯(lián)邦,之后產(chǎn)出一定的效果,這個(gè)效果屬于整個(gè)聯(lián)盟,同時(shí)聯(lián)盟也有一個(gè)分紅機(jī)制,早加入貢獻(xiàn)大的可以獲得較多獎(jiǎng)勵(lì)。
但是如何持續(xù)吸引參與方加入聯(lián)盟呢?這就需要我們不僅僅建立像經(jīng)濟(jì)學(xué)和博弈論的模型,同時(shí)還需要一個(gè)模擬的場(chǎng)景,那么這個(gè)場(chǎng)景就是我們最近研究的,需要考慮有哪些合理的激勵(lì)機(jī)制,比較公平的分配方案。因此參與者可以看到通過(guò)聯(lián)盟得到的收益以及需要它投入的成本。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
8月14日立即報(bào)名>> 【在線研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
精彩回顧立即查看>> OFweek 2025 具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專(zhuān)題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬(wàn)億美元的公司
- 2 傳魏建軍與賈躍亭合作,長(zhǎng)城汽車(chē)出海美國(guó)
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長(zhǎng)期合作,共探AI智駕
- 5 具身智能泡沫爭(zhēng)議下,華映資本尋找「穿越周期者」
- 6 中國(guó)平安們欲靠AI守“陣地”
- 7 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 8 華為讓渡“三界”銷(xiāo)售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實(shí)現(xiàn)突圍,國(guó)產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國(guó)AI與芯片產(chǎn)業(yè)迎來(lái)新一輪協(xié)同進(jìn)化