唇語識別!AI 領(lǐng)域的下一個萬億市場?
英國查爾斯王子迎娶卡米拉時,讀唇者成功破解了伊麗莎白二世與兒子的低語,讓女王糟糕的婆媳關(guān)系浮現(xiàn)在大眾眼前 —— 這可能是“唇語識別”第一次大面積走進(jìn)大眾的視野。
什么是唇語識別
所謂的“唇語識別”,其實(shí)并不神秘。
早在古代,就有專門的唇語師存在。通過長期的訓(xùn)練,他們具備了“觀察別人的嘴型,解讀其表達(dá)語句”的能力。在現(xiàn)代社會里,一些聽力障礙者們也會使用這種技巧與他人進(jìn)行交談,補(bǔ)充聽力器官的不足。
但隨著科技的發(fā)展,人工智能在各領(lǐng)域漸次開放,在唇語識別上,機(jī)器已經(jīng)做的比人類好了。
從技術(shù)路徑上,唇語識別是一項(xiàng)集機(jī)器視覺與自然語言處理于一體的復(fù)合型技術(shù)。
要理解這個“唇語識別”,需要注意這幾個關(guān)鍵詞:
運(yùn)用機(jī)器視覺技術(shù)從圖像中識別出說話人的人臉,提取此人連續(xù)說話時口型變化的特征。
將連續(xù)變化的特征輸入到唇語識別模型中,識別說話人口型對應(yīng)的發(fā)音,運(yùn)用大數(shù)據(jù)計算出可能性最大的自然語言語句。
圖中字幕是由谷歌AI通過唇讀實(shí)時同步輸出,語速之快,難度之大。
在唇語識別過程中,口型與發(fā)音,發(fā)音與文字之間,并不是唯一對應(yīng)的關(guān)系,常常有多個可能的備選結(jié)果,需要實(shí)時計算出可能性最大的結(jié)果。
唇語識別的研究現(xiàn)狀
早在 2003 年,Intel 就開發(fā)了唇語識別軟件 Audio Visual Speech Recognition(AVSR),開發(fā)者得以能夠研發(fā)可以進(jìn)行唇語識別的計算機(jī)。
2016 年 Google DeepMind 的唇語識別技術(shù)就已經(jīng)可以支持 17500 個詞,新聞測試集識別準(zhǔn)確率首次達(dá)到了 50% 以上。
海云數(shù)據(jù),截至2018年他們訓(xùn)練新聞類節(jié)目時長是1萬小時。為什么是新聞類節(jié)目?當(dāng)然是因?yàn)椴ヒ魡T的唇語最標(biāo)準(zhǔn)。目前,海云數(shù)據(jù)在英文方面可以達(dá)到80%的準(zhǔn)確度,中文方面是71%
海云數(shù)據(jù)的AI唇語識別測試
搜狗的通用識別準(zhǔn)確率在60%以上,而在車載、智慧家居等垂直場景下,準(zhǔn)確率高達(dá)90%。
搜狗的AI唇語識別測試
從視頻中可以看出將面部放入橢圓形區(qū)域內(nèi),不發(fā)聲的說出一段話,幾乎說完的瞬間,識別的文字就出現(xiàn)在屏幕上,無論是口語、詩詞、歌詞還是繞口令,都能很好的識別。
唇語識別的技術(shù)原理
AI唇語識別技術(shù)原理:
唇語識別技術(shù)從鏡頭輸入到理解輸出,中間最重要的關(guān)鍵是:視覺前段、視覺特征提取、唇動識別。
視覺前段——包括人臉檢測與唇的檢測和定位,先用人臉檢測演算法得到人臉然后有針對性的定位唇動;
或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇圖像。
視覺特征提取——是對獲取的唇圖像進(jìn)行處理得到對應(yīng)特征,特征提取方法主要分為基于圖元的方法和基于模型的方法兩大類;
搜狗所用的基于模型的方法就是,對唇的輪廓建立一個模型,將特征資訊包含在這個模型之中,并對模型中特征資訊的變化用一個小的參數(shù)來描述。
這類方法的優(yōu)點(diǎn)是重要特征被表示成二維參數(shù),不會因光照、縮放、旋轉(zhuǎn)、平移而改變,缺點(diǎn)是忽略了細(xì)微的三維資訊,可能會對后面的識別過程造成影響。
唇動識別——目前采用的技術(shù)大多是隱瑪爾可夫模型( Hidden Markov Model,簡稱 HMM ),該模型認(rèn)為唇動信號在極短時間內(nèi)是線性的,可以用線性參數(shù)模型來表示,然后將許多線性模型在時間上串接起來,組成一條瑪爾可夫鏈。
瑪爾可夫鏈可以用來描述統(tǒng)計特征資訊的變化,并且這種變化過程與人的唇動過程是相吻合的,所以 HMM 能夠識別唇動并與相應(yīng)語句匹配轉(zhuǎn)化成文字。
隨著機(jī)器學(xué)習(xí)方法在語音識別領(lǐng)域里取得的巨大成功,尤其是 HMM 的應(yīng)用,根據(jù)唇語識別研究和語音識別的相似性,出現(xiàn)了大量的 HMM 應(yīng)用在唇語識別領(lǐng)域的研究成果。
在非特定開放口語測試中,目前的通用識別準(zhǔn)確率已經(jīng)在 70% 以上,而在金融風(fēng)控、車載、智能家居等垂直場景下,已達(dá)到超過 90% 的準(zhǔn)確率。
唇語識別的研究意義
人類費(fèi)盡心力開發(fā)研究人工智能、提高唇語識別的準(zhǔn)確率,除了偷窺伊麗莎白二世和兒子的秘密外,還有很多更為廣泛的用途:
比如應(yīng)用于金融在線業(yè)務(wù)的生物識別、噪聲環(huán)境下輔助語音識別、輔助聽障人士交流、體育賽事暴力語言識別等多個領(lǐng)域,這些都是有著實(shí)際意義且頗為重要的應(yīng)用場景。
自出現(xiàn)唇語識別技術(shù)出現(xiàn)起,就有聲音說唇語識別是語言交互的高階戰(zhàn),甚至可能帶來一場革命。
但在人工智能大范圍落地的今天,國內(nèi)從業(yè)者扎堆涌入的,大多為語音識別,圖像識別,人臉識別,機(jī)器翻譯,無人駕駛,虛擬助手和個性化內(nèi)容推薦等領(lǐng)域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。
但業(yè)界的常識是:人工智能未來將會出現(xiàn)一個數(shù)萬億美元的巨大市場,在面對具體乃至細(xì)碎的應(yīng)用場景時,人工智能的細(xì)分程度,勢必如百年前的電力那般觸角龐雜。
而廣袤的嫁接空間也意味著,從真實(shí)應(yīng)用場景出發(fā),人工智能領(lǐng)域會出現(xiàn)不少藍(lán)海市場,被國內(nèi)巨頭忽視的唇語識別就是其中之一。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
-
8月14日立即報名>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
精彩回顧立即查看>> OFweek 2025 具身機(jī)器人動力電池技術(shù)應(yīng)用大會
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬億美元的公司
- 2 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長期合作,共探AI智駕
- 5 具身智能泡沫爭議下,華映資本尋找「穿越周期者」
- 6 中國平安們欲靠AI守“陣地”
- 7 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 8 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實(shí)現(xiàn)突圍,國產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進(jìn)化