實現(xiàn)不間斷對話后,微軟小冰距離理想中的樣子又近了一步
更加自然的全雙工語音交互感官
其實我對于此次小冰所具備的智能家居設備控制技能、更加人性化的情感和同理心能力以及獨特的「小冰姐姐」模式這三項功能并不感到意外,而真正值得關注的地方是其一次喚醒可進行連續(xù)對話。
要知道,目前包括智能音箱在內(nèi),絕大多數(shù)語音控制設備都采用了「一問一答」的交互方式。理由也很簡單,這樣的方案允許設備在技術并不足夠成熟的前提下,依舊能夠可以相對不錯的識別準確度。
但這樣的人機交互方式所存在的不足之處在于,其并不符合人們自然的交互習慣。從某種角度上來說,即便是它在準確度和回饋速度上都做到了接近完美,但可能也還是更多地停留在「工具」的層面,并非人們理想中人工智能該有的模樣。
而對比來看,搭載了微軟小冰的 Yeelight 可以實現(xiàn)對話像河流一樣不間斷進行,在語音交互方式上顯然要更自然一些,微軟稱之為全雙工語音交互感官。
不顧想要實現(xiàn)近乎于人與人之間的交流方式,顯然并不是一件容易的事情,在前幾天的媒體溝通會上,小冰團隊也對這背后部分技術特征進行了披露。
首先在基礎框架上,微軟沒有選擇面向單個任務的的 Turn-oriented,而是采用了面向?qū)υ捜痰?Session-oriented。
同時在實際的人機交互過程中,小冰所采用的全雙工語音交互技術,在包括邊聽邊想、節(jié)奏控制器、對聲音場景的理解以及自然語言理解與生成模型等多個維度上進行了探索。
首先它建立了一套預測模型,來實現(xiàn)邊聽邊想。簡單來講,小冰會提前預測你想要表達的完整意思,從而實現(xiàn)更快的響應速度和改口能力。同時在回答你所提出的問題時,可以實現(xiàn)動態(tài)回應,通過有選擇的將回答分成多段,來減少你的等待時間。
另外,為了讓小冰在與人類的對話過程中可以更好的掌握時機和重要內(nèi)容,它也設置了節(jié)奏控制器。當然,人與機器交互時需要它能夠很好的實現(xiàn)對聲音場景的理解。比如識別你的性別、對指令的正確識別等等。
還有一個重要的技術特征是,小冰擁有自然語言理解與生成模型,從而實現(xiàn)更好的容錯性以及基于整個對話對上下文的理解。
綜合來講,在語音交互方式上,微軟選擇了一條短時間內(nèi)可能并不容易獲得明顯效果,但上限更高的技術路徑。不難想象的是,未來隨著 Turn-oriented 框架走到極致而無法更進一步的情況下,也會有越來越多語音平臺加入到這個行列中。
但顯而易見的是,早先一步開始布局 Session-oriented 框架的微軟已經(jīng)領先了半個身位。從長遠來看,其將獲得更高的收益。
回過頭來看小冰這個平臺,正如我們前邊提到的,雖然就目前而言它的整體體驗并不那么完美,但其成長上限非常高。一旦未來各方面走向成熟,這個平臺或許將最早成為我們理想中的人工智能。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達成為全球首家市值破4萬億美元的公司
- 2 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長期合作,共探AI智駕
- 5 具身智能泡沫爭議下,華映資本尋找「穿越周期者」
- 6 中國平安們欲靠AI守“陣地”
- 7 官宣:智元機器人借殼上市,A股人形機器人第一股!
- 8 華為讓渡“三界”銷售主導權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實現(xiàn)突圍,國產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進化