亚洲熟妇男女啪啪视频,国产午夜视频观看,日韩hd无码一区二区

從語音識別到語義識別，中間還有多長的路要走？

2017-12-16 08:33

　　圖|語音發(fā)展史

　　語音識別產品應用

　　語音識別作為打造良好交互體驗的重要前提，今年的發(fā)展可謂是持續(xù)火爆。在智能音箱市場，首先想到的就是Amazon的Echo。Echo作為將自然語音轉化為在線指令的設備，其效率之高無容置疑，并且可保持在線的自然環(huán)境中的自然語言識別。

　　Echo的核心技術在于它集成的智能語音助手Alexa。在2015年6月25日亞馬遜曾宣布，將開放智能語音硬件Echo的內置AI助手Alexa的語音技術，供第三方開發(fā)者免費使用。由此可見，亞馬遜向用戶呈現(xiàn)出來的不僅僅是技術上的領先，還有真正落地的產品，以及良好的產品體驗。

　　與此同時，國內語音識別領域也開始爭奪大戰(zhàn)。以科大訊飛聽見系列產品為例，自2015年發(fā)布以來，總用戶突破1000萬，應用于30余個行業(yè)。目前，已經形成了以聽見智能會議系統(tǒng)、訊(詢)問筆錄系統(tǒng)、聽見轉寫網站、錄音寶APP、聽見智能會議服務等以智能語音轉寫技術為核心的產品和服務體系。

　　語音識別技術瓶頸

　　從下圖可以看出，語音識別的誤字率呈明顯的下降趨勢。

　　然而，即使達到100%的準確率，僅限于輸入法功用的語音識別也無人機互動的意義，它還算不得真正的人工智能。

　　我們所期望的語音識別實質上是人機交互，大致上可以理解為人與機器之間無障礙溝通。要達到這種期望，光靠誤字率很低甚至為零的語音識別可能并不能做到，那么就需要有“大腦”的語義識別了，相對于語音識別，它可以通過人們的語氣、談話的內容等等判斷用戶說的話到底是什么意思，而不是簡單的一字不落的識別出所說的內容。比如說：小沈陽長得可真帥！在不同的語境下卻有著截然相反的意思。

　　從“傻白甜”的語音識別到“帶腦子”的語義識別，還有很長的路要走。

　　口音和噪聲

　　語音識別中最明顯的一個缺陷就是對口音和背景噪聲的處理。最直接的原因是大部分的訓練數(shù)據都是高信噪比、美式口音的英語。

　　上圖中可以看到有口音的情況下，人的錯誤率低于模型；從高信噪比到低信噪比，人與模型之間的錯誤率差距急劇擴大。

　　語義錯誤

　　實際上語音識別系統(tǒng)的目標并不是誤字率。人們更關心的是語義錯誤率。

　　舉個語義錯誤的例子，比如某人說“l(fā)et’smeetupTuesday”，但語音識別預測為“l(fā)et’smeetuptoday”。我們也可能在單詞錯誤的情況下保持語義正確，比如語音識別器漏掉了“up”而預測為“l(fā)et’smeetTuesday”，這樣話語的語義是不變的。

　　將模型與人工進行比較時的重點是查找錯誤的本質，而不僅僅是將誤字率作為一個決定性的數(shù)字。

　　微軟研究人員將他們的人工級語音識別器的錯誤與人類進行過比較。他們發(fā)現(xiàn)的一個差異是該模型比人更頻繁地混淆“uh”和“uhhuh”。而這兩條術語的語義大不相同：“uh”只是個填充詞，而“uhhuh”是一個反向確認。這個模型和人出現(xiàn)了許多相同類型的錯誤。