訂閱
糾錯
加入自媒體

蘋果申請新專利 Siri可解讀用戶情緒

據(jù)蘋果14日提交的最新專利申請文件顯示,蘋果正在開發(fā)一種全新的方法,通過在未來版本的Siri或者其他系統(tǒng)中添加面部分析功能,來幫助Siri解讀用戶需求。這意味著Siri將來可能不僅懂得語音識別,在與用戶進行對話時,它甚至可以啟用設(shè)備的FaceTime攝像頭,來分析用戶面部表情,解讀用戶情緒。

蘋果官方稱,申請這一專利的目的是減少語音請求被Siri誤解的次數(shù),試圖通過分析用戶情緒來進一步提高準確度。蘋果還提到:“Smart Apps可以代表用戶執(zhí)行操作,以回應(yīng)用戶的自然語言需求,但在某些情況下,可能會與用戶想要的操作并不符合。但是現(xiàn)在我們可以對視頻輸入中的面部圖像進行分析,通過識別形狀或運動來識別特定的肌肉或肌肉組織是否被激活”。

目前人工智能較為成熟的應(yīng)用之一就是圖像和語音識別。圖像識別是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術(shù)。得益于數(shù)字化時代帶來的海量數(shù)據(jù),加之機器學(xué)習(xí)方法的廣泛應(yīng)用,計算機視覺發(fā)展迅速。以往許多基于規(guī)則的處理方式,都被機器學(xué)習(xí)所替代:機器自動從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進行識別和判斷。其已經(jīng)廣泛應(yīng)用到拍照識物、畫面增強、人機交互等各種領(lǐng)域,包括典型的相機人臉檢測、安防人臉識別、車牌識別等等。

神經(jīng)網(wǎng)絡(luò)圖像識別的發(fā)展,各類視覺識別的任務(wù)精度都得到了大幅提升。在全球最權(quán)威的計算機視覺競賽ILSVR上,千類物體識別錯誤率在2011年時還高達25.8%,從2012年引入深度學(xué)習(xí)之后,后續(xù)4年的錯誤率分別達到了16.4%、11.7%、6.7%、3.7%,出現(xiàn)了顯著突破。現(xiàn)在,人臉識別甚至能做到誤判率低于百萬分之一。

語音技術(shù)主要包括語音合成和語音識別兩項關(guān)鍵技術(shù)。讓機器說話,用的是語音合成技術(shù);讓機器聽懂人說話,用的是語音識別技術(shù)。語音識別技術(shù)是指將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列,與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。此外,語音技術(shù)還包括語音編碼、音色轉(zhuǎn)換、口語評測、語音消噪和增強等技術(shù)。

科大訊飛作為智能語音識別領(lǐng)域的領(lǐng)跑者,在技術(shù)應(yīng)用中訊飛翻譯機3.0支持和7個領(lǐng)域的專業(yè)人士充分對話,覆蓋醫(yī)療、外貿(mào)、體育、金融、能源、計算機、法律等七大熱門行業(yè)的AI翻譯,同時支持粵語、四川話、東北話、河南話等中文方言與英語的互譯,普通話與維語、藏語的即時互譯。另外,即使是方言口音的英語,訊飛翻譯機3.0也能識別。

語音識別技術(shù)從客服到智能家居,再到移動手機端和車載環(huán)境等多方面具有廣泛的應(yīng)用場景。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由于嗓音沙啞、情緒壓力或是外界環(huán)境影響而變化。語音識別系統(tǒng)比指紋識別系統(tǒng)有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。

目前圖像與語音識別技術(shù)其很大程度上還是處于識別和歸類的層面,想要透過表層的識別去進行深層的情緒認識和理解,進而優(yōu)化人機交互的體驗,尚需時日。

聲明: 本網(wǎng)站所刊載信息,不代表OFweek觀點。刊用本站稿件,務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像,違者將依法追究法律責(zé)任。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號