AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考
流動(dòng)中的數(shù)據(jù)價(jià)值挖掘 V.S. 隱私保護(hù)
— 數(shù)據(jù)擁有者的控制力數(shù)據(jù)自由流動(dòng)中的價(jià)值挖掘能讓AI更好地發(fā)揮價(jià)值,但同時(shí),數(shù)據(jù)流動(dòng)過(guò)程中不經(jīng)節(jié)制的應(yīng)用,也會(huì)帶來(lái)數(shù)據(jù)隱私侵犯的隱患。最近多個(gè)金融大數(shù)據(jù)公司遭到立案調(diào)查,從數(shù)據(jù)源的角度來(lái)看,其中一個(gè)重要原因就是該類公司的爬蟲對(duì)觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲(chǔ)或超出了約定的使用范圍。
舉例來(lái)說(shuō),如果有一個(gè) App 聲稱幫助用戶進(jìn)行多個(gè)金融賬戶進(jìn)行管理并綜合呈現(xiàn)個(gè)人現(xiàn)金流等信息,為了幫助 App 呈現(xiàn)這些信息,用戶就需要提供這些金融賬戶的訪問(wèn)權(quán)限。但如果在這個(gè)過(guò)程中 App 對(duì)個(gè)人銀行賬戶內(nèi)的所有信息都進(jìn)行了抓取和存儲(chǔ),并將這些信息提煉出來(lái)的標(biāo)簽出售給第三方或利用標(biāo)簽開展新的業(yè)務(wù)。由于這些過(guò)程未對(duì)用戶進(jìn)行告知并獲得許可,都是一種對(duì)數(shù)據(jù)使用權(quán)的濫用。
從當(dāng)下的工程實(shí)踐來(lái)看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數(shù)據(jù)擁有方一個(gè)控制力,包括對(duì)數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國(guó)際上普遍進(jìn)行的實(shí)踐或者規(guī)范(如GDPR)都傾向于對(duì)個(gè)人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。
比如GDPR中就會(huì)要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”,當(dāng)用戶有了這個(gè)明目之后,應(yīng)當(dāng)有權(quán)來(lái)選擇“保留哪些刪除哪些”;在此基礎(chǔ)之上,還比如會(huì)要求對(duì)數(shù)據(jù)處理方法作出明確問(wèn)詢和授權(quán),“比如通過(guò)采集到的用戶點(diǎn)贊的帖子的內(nèi)容和類型來(lái)學(xué)習(xí)用戶的興趣愛好”;這些興趣愛好作為標(biāo)簽,雖然不是原始數(shù)據(jù),仍然需要用戶進(jìn)行逐一的明確授權(quán)。
當(dāng)我們通過(guò)給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù),在實(shí)踐中又會(huì)出現(xiàn)一個(gè)新的挑戰(zhàn)——如何在不侵犯?jìng)(gè)人隱私的前提下,獲得個(gè)人的授權(quán)。
舉個(gè)例子,比如在獲得興趣愛好標(biāo)簽授權(quán)的時(shí)候不太可能有用戶可以預(yù)先對(duì)近乎無(wú)限多的興趣愛好進(jìn)行一一授權(quán),一般的過(guò)程也是首先由數(shù)據(jù)挖掘方獲得了某個(gè)標(biāo)簽,再針對(duì)這個(gè)標(biāo)簽進(jìn)行問(wèn)詢。
我們?cè)谶^(guò)去的工作實(shí)踐中見過(guò)的最好的處理方法是首先對(duì)多達(dá)三到六百萬(wàn)常用的興趣愛好做知識(shí)圖,將這些興趣愛好的包含關(guān)系或者關(guān)聯(lián)性整理出來(lái);之后再對(duì)各類興趣愛好通過(guò)找到包含關(guān)系中處于包含當(dāng)前愛好的比較泛化的那類愛好進(jìn)行問(wèn)詢這樣點(diǎn)到為止的方式來(lái)完成。
即便做到這樣,雖然消耗了巨大的資源并且有很高的門檻,也很難說(shuō)做到了完美,因此也就不難理解多數(shù)公司在應(yīng)對(duì)GDPR或者相關(guān)合規(guī)的問(wèn)題上面臨著巨大的挑戰(zhàn)這個(gè)事實(shí)。
數(shù)據(jù)擁有者的控制力如何賦予?數(shù)據(jù)擁有者控制力的核心意義在于讓每個(gè)擁有者在挖掘和保護(hù)之間選擇自己的平衡點(diǎn)。為了給擁有者控制力,第一步要討論的是誰(shuí)是數(shù)據(jù)的擁有者這個(gè)問(wèn)題。
一般對(duì)于個(gè)人數(shù)據(jù)來(lái)說(shuō),無(wú)論是個(gè)人的身份識(shí)別信息或者生物統(tǒng)計(jì)信息這樣對(duì)個(gè)人進(jìn)行描述的數(shù)據(jù),還是用戶的行為信息(比如訪問(wèn)了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶生成數(shù)據(jù),都會(huì)認(rèn)為擁有者是這個(gè)人本身。
尤其對(duì)于產(chǎn)生的標(biāo)簽數(shù)據(jù)來(lái)說(shuō),有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來(lái)的因此擁有者是采集方這個(gè)想法也不應(yīng)該是被廣泛認(rèn)同的。
圍繞擁有方是產(chǎn)生數(shù)據(jù)的個(gè)體這條線去思考,在整個(gè)數(shù)據(jù)生命周期鏈條里面就存在對(duì)第一方數(shù)據(jù)的控制、第二三方的控制等不同的問(wèn)題。
對(duì)于第一方來(lái)說(shuō),由于是數(shù)據(jù)的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個(gè)針對(duì)給用戶控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶在采集,存儲(chǔ)和使用三個(gè)方面給予控制力。
首先用戶會(huì)看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)(采集可見),之后允許用戶決定是否可以在廣告投放中進(jìn)行使用(使用控制),再次允許用戶對(duì)這些數(shù)據(jù)進(jìn)行立即刪除的操作(存儲(chǔ)控制)。
這個(gè)功能聽上去簡(jiǎn)單,但實(shí)際上對(duì)于一個(gè)正在運(yùn)轉(zhuǎn)的機(jī)構(gòu)來(lái)說(shuō),要涉及到鑒別所有的數(shù)據(jù)來(lái)源、在復(fù)雜的數(shù)據(jù)流里面識(shí)別各類數(shù)據(jù)、以及對(duì)某個(gè)數(shù)據(jù)的所有存儲(chǔ)位置進(jìn)行控制這幾方面能力。對(duì)于小機(jī)構(gòu)來(lái)說(shuō)資源和投入產(chǎn)出比肯定是不夠的,對(duì)于大機(jī)構(gòu)來(lái)說(shuō)由于內(nèi)部數(shù)據(jù)流太過(guò)復(fù)雜,為了實(shí)現(xiàn)它往往會(huì)需要做整個(gè)系統(tǒng)的重新設(shè)計(jì)和實(shí)現(xiàn),代價(jià)也不言而喻。
舉例來(lái)說(shuō),為了實(shí)現(xiàn)Clear History:首先為了在幾萬(wàn)PB的數(shù)據(jù)倉(cāng)庫(kù)中甚至更大的冷存儲(chǔ)中找到所需要控制的數(shù)據(jù),就需要做整個(gè)數(shù)據(jù)集的語(yǔ)義識(shí)別(很多時(shí)候由于表單的schema并不統(tǒng)一,所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類型),這個(gè)過(guò)程類似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲(chǔ)點(diǎn),會(huì)需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)流進(jìn)行端到端的識(shí)別。當(dāng)所有的存儲(chǔ)點(diǎn)識(shí)別完成后,為了實(shí)現(xiàn)功能中的實(shí)時(shí)刪除,還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個(gè)高吞吐量的中心管理系統(tǒng)。
這個(gè)過(guò)程協(xié)調(diào)了許多內(nèi)部部門,消耗了大量的資源,耗時(shí)一年以上。不難看出,在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
8月14日立即報(bào)名>> 【在線研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
精彩回顧立即查看>> OFweek 2025 具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬(wàn)億美元的公司
- 2 傳魏建軍與賈躍亭合作,長(zhǎng)城汽車出海美國(guó)
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長(zhǎng)期合作,共探AI智駕
- 5 具身智能泡沫爭(zhēng)議下,華映資本尋找「穿越周期者」
- 6 中國(guó)平安們欲靠AI守“陣地”
- 7 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 8 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實(shí)現(xiàn)突圍,國(guó)產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國(guó)AI與芯片產(chǎn)業(yè)迎來(lái)新一輪協(xié)同進(jìn)化