訂閱
糾錯(cuò)
加入自媒體

DeepTalk深言堂 | 清華劉永進(jìn):多模態(tài)情感計(jì)算

深蘭科學(xué)院打造的學(xué)習(xí)平臺(tái)“DeepTalk深言堂”,于2020年1月9日首次開講。我們有幸邀請到清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系的孫富春、鄧志東、劉永進(jìn)三位學(xué)術(shù)界知名的專家教授,特別帶來三場基于最新科研動(dòng)態(tài)的精彩報(bào)告。

前期已分享了孫富春教授《面向靈巧操作的機(jī)器人主動(dòng)感知與認(rèn)知學(xué)習(xí)》,今天將特別呈現(xiàn)劉永進(jìn)教授的精彩報(bào)告。

DeepTalk深言堂

《多模態(tài)情感計(jì)算》

清華大學(xué) 劉永進(jìn)教授

報(bào)告摘要

情緒是指認(rèn)知和意識(shí)過程中產(chǎn)生的心理和生理狀態(tài),對人類的行為和心理健康有重要的影響。情緒在機(jī)器人智能交互領(lǐng)域有許多應(yīng)用場景,例如陪伴機(jī)器人、看護(hù)機(jī)器人、送餐機(jī)器人中的虛擬客服對話與個(gè)性化圖形內(nèi)容生成等。多模態(tài)情感包括行為信號(hào)和生理信號(hào)的情緒識(shí)別。與行為信號(hào)相比,生理信號(hào)具有普適、自發(fā)性強(qiáng)、難于偽裝的優(yōu)點(diǎn),更能反映大多數(shù)人群的真實(shí)情緒。在識(shí)別問題中,需要使用高效的機(jī)器學(xué)習(xí)算法進(jìn)行情緒分類。傳統(tǒng)方法將各電極通道的EEG信號(hào)獨(dú)立處理。此次報(bào)告介紹了清華在這方面最近在考慮通道之間關(guān)聯(lián)的、基于多通道腦電信號(hào)的情緒識(shí)別研究,包括稀疏圖卷積神經(jīng)網(wǎng)絡(luò)和基于注意力機(jī)制+域判別器的LSTM網(wǎng)絡(luò)。

AI中的情感計(jì)算

AI中的情感計(jì)算我們把它定位成人工智能中比較重要的體現(xiàn),現(xiàn)在很多人說不清人工智能是什么,只能說有算法可以做到人能做的事情,能節(jié)省一些人力,這是早期算法能模擬人做的事情。但人工智能再往后發(fā)展,它的一些高層的功能跟情感就有關(guān)系了。

這里我們就要講到情緒。情緒有一個(gè)定義,它是認(rèn)知和意識(shí)過程中對心理和生理狀態(tài)的測量,它是一個(gè)模糊、不精確的概念。為什么說研究高級(jí)人工智能,它很重要呢?因?yàn)榍榫w對于人類的行為和心理健康,包括一些產(chǎn)品的用戶體驗(yàn)有非常重要的影響。

我們這里研究的情緒是指,由情感引發(fā)或能夠影響情感的計(jì)算。這里我想特別強(qiáng)調(diào)下有關(guān)機(jī)器智能和仿人智能的區(qū)別,人工智能有時(shí)候不太區(qū)分這兩種智能,但這兩種智能的差別還是非常大。

機(jī)器智能完全是機(jī)器之間在進(jìn)行交流,完全是邏輯運(yùn)算,是機(jī)器內(nèi)部的自己的運(yùn)算或高性能存儲(chǔ),是不需要人參與的,自己有一套非常好的機(jī)制。它的存儲(chǔ)可以做的很大,運(yùn)算速度很快,可以比人突出的傳遞的精神信號(hào)要快很多倍,它的容錯(cuò)和糾錯(cuò)能力也非常強(qiáng)。

而仿人智能一定強(qiáng)調(diào)“人在回路”,我們強(qiáng)調(diào)這種智能形態(tài)里是有人的,是要為人來服務(wù)的。我們有很多學(xué)科,比如機(jī)器人、人機(jī)交互,比如我們的迎賓機(jī)器人,它不是來迎接機(jī)器人的,它是來迎接人的,有人在回路上。我們還有虛擬/增強(qiáng)現(xiàn)實(shí)、計(jì)算機(jī)圖形學(xué)與可視化、圖像、視頻、多媒體,所有這些都是給人看的。如果是機(jī)器和機(jī)器交流,它只需要帶寬,完全有一套自己的體系,可以完全突破人的生物的限制。為什么說仿人智能?因?yàn)槿耸且环N生物的智能,它與機(jī)器智能有完全不同的形態(tài),所以當(dāng)人在回路的時(shí)候,要考慮人的感受的時(shí)候,這方面就非常重要。

人在回路有一個(gè)非常重要的因素是情感或者情緒狀態(tài),這是一個(gè)高級(jí)的、意識(shí)形態(tài)的問題。這類研究在人工智能中也比較多了,比如文本,我們的聊天機(jī)器人Siri,有聊天對話的用戶界面,這些通過分析情感詞、包括圖形測試來回答。我們的智能客服回答的時(shí)候如果有情感詞、有語氣,你高興的時(shí)候它能一起高興,你悲傷的時(shí)候它能給你一些開導(dǎo),你會(huì)覺得對面更像是一個(gè)人。

我們再舉一個(gè)圖形學(xué)中的例子,在人和機(jī)器人之間的交互我們有個(gè)落地的應(yīng)用。一個(gè)用戶的照片,我們可以給出任意一個(gè)情緒的標(biāo)簽,然后就可以把臉部變成對應(yīng)的喜怒哀樂。進(jìn)一步比如說一個(gè)冷冰冰的聊天對話的文本框,可以回答一些問題,好比看護(hù)機(jī)器人、家庭中的陪伴機(jī)器人等都有一些語氣詞,這都是文本層面,但在圖形交互界面上還是非常少。

之前一些研究工作,寫成文還是比較容易,比如說這些世界名畫,我們搜集到一些人的個(gè)性化表情照片,把名畫改成他們的表情。但如何落地應(yīng)用呢?這是一個(gè)很大的體系,人通過很多傳感器,比如腦機(jī)接口、腕表來測量身體信號(hào),對應(yīng)到一些顯示,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、對話聊天等,都通過這個(gè)界面來顯示。

情緒識(shí)別

我們跟許多國內(nèi)做情感計(jì)算的人溝通,發(fā)現(xiàn)基礎(chǔ)理論并不清晰,所以我們在2017-2018年花了很多時(shí)間,跟中科院心理所、清華大學(xué)心理系一起,把基礎(chǔ)理論先搞搞扎實(shí)。

首先我們來看如何刻畫人的情緒或情感模型。很多時(shí)候計(jì)算機(jī)視覺說不清,所以我們花了很長時(shí)間去理清這個(gè)情緒模型,這不是我們提的,這個(gè)概念太大,我們主要搜集了很多國際上的已有模型。

主要分為兩大類,一類是離散模型,一類是維度模型。

離散模型是通過人的臨床或心理學(xué)家提煉出來的,有點(diǎn)像聚類算法聚類出來的通過100多年大量的樣本提煉出來的,包括喜悅、憤怒、驚奇、悲傷、厭惡、恐懼,它的優(yōu)點(diǎn)在于每一類的分界線非常清晰,具有很高的辨識(shí)度,神經(jīng)反應(yīng)的模式非常清晰。

維度模型,它是是計(jì)算機(jī)領(lǐng)域比較喜歡的,是一個(gè)連續(xù)的維度,比如喚醒度、效價(jià)加上控制度,它是一個(gè)連續(xù)的坐標(biāo)系,坐標(biāo)中的任何一個(gè)點(diǎn)都可以刻畫一種情緒,在描述上非常方便。但它有一個(gè)問題,在這個(gè)坐標(biāo)空間中并不是線性,比如溫馨和浪漫,他們的坐標(biāo)點(diǎn)可能差得不遠(yuǎn),但它們的神經(jīng)響應(yīng)模式差別特別大。有時(shí)候坐標(biāo)差得比較遠(yuǎn),其實(shí)又離得比較近,所以這個(gè)空間用起來很方便,但在神經(jīng)辨識(shí)度上可能有些問題。


這個(gè)離散模型,大家仔細(xì)看的話其實(shí)會(huì)發(fā)現(xiàn)它的負(fù)性情緒居多,在六類經(jīng)典的離散情緒中正性只有喜悅一種,其他都是負(fù)性,因?yàn)榕R床大部分是病人,心理有問題才會(huì)去看醫(yī)生。因此清華大學(xué)心理學(xué)專家提出一種“積極心理學(xué)”,就是要把正性情緒進(jìn)行細(xì)分類,傳統(tǒng)的情緒里是沒有的。我們現(xiàn)在講到的情緒并不是都給病人用,更多時(shí)候比如我們到商場里遇到的客服機(jī)器人,跟它交互的時(shí)候,要區(qū)分哪些情緒狀態(tài)是好的,要區(qū)分出是快樂、放松、自豪、感恩,還是其他情緒細(xì)分類。

積極情緒有獨(dú)特的認(rèn)知功能,能促近身心健康,提高社交能力和學(xué)習(xí)能力。我們正在理論上嘗試刻畫積極情緒這種模式。還有一個(gè)不一樣的地方,以前的負(fù)性情緒界限非常清晰,分辨率非常高,但積極情緒是一個(gè)混合的情緒狀態(tài),是幾種情緒混雜在一起誘發(fā)出來的。所以分類上不是排他式的,而是混合式的。

另外在基礎(chǔ)理論方面,有一個(gè)Ground truth,它是一個(gè)非常模糊的概念,就像高興和喜悅沒有界限。于是,我們就花很長功夫去界定了一個(gè)Ground truth,我們就收集到傳統(tǒng)在心理學(xué)上做的實(shí)驗(yàn)。

情緒誘發(fā)有幾大類基礎(chǔ)的方法:


通過實(shí)驗(yàn),假定能通過一套素材誘發(fā)情緒,那我們要搜集什么樣的信號(hào)去識(shí)別呢?這里基本分為兩類,一類是基于行為的數(shù)據(jù),一類是基于生理信號(hào)的數(shù)據(jù)。

基于行為的包括圖像、面部表情、語音語調(diào),或者身體的姿勢。作為一個(gè)基礎(chǔ)的Ground truth,這些比較容易收到外部因素的影響。好比人可以去控制表情和身體的姿勢,隱藏真實(shí)的情緒狀態(tài)。所以我們在做基礎(chǔ)庫的時(shí)候,會(huì)考慮基于生理信號(hào),用腦電、外周生理信號(hào),即便是受過訓(xùn)練的人也很難控制這些。

腦電信號(hào)

2019年我們進(jìn)行了一項(xiàng)關(guān)于腦電的研究,分析用戶在交互過程中的腦神經(jīng)信息,創(chuàng)新性地實(shí)時(shí)在線解碼在復(fù)雜多樣真實(shí)環(huán)境下的情緒狀態(tài),構(gòu)建情緒識(shí)別腦機(jī)接口系統(tǒng),綜合研究積極情緒和交互自然性的關(guān)系,為圖形界面、媒體生成、自然人機(jī)交互提供理論基礎(chǔ)和驗(yàn)證平臺(tái)。

腦電信號(hào)的采集還不是很普及,我們知道傳統(tǒng)醫(yī)學(xué)上使用的腦電設(shè)備都是濕電極設(shè)備,要打腦電膏、涂生理鹽水,實(shí)驗(yàn)非常麻煩,用戶也不愿意去戴。我們要收集到這些Ground truth非常麻煩,但是使用開始考慮干電極設(shè)備。所以我們可以用濕電極設(shè)備來收集Ground truth,用干電極設(shè)備來應(yīng)用。

視頻的建立有一套非常嚴(yán)格的,經(jīng)得起考驗(yàn)的標(biāo)準(zhǔn),收集的Ground truth一定能誘發(fā)情緒。因?yàn)榍榫w與文化背景有關(guān),所以我們面向中國北方地區(qū)漢族建立了庫,利用電影的素材庫,因其包括語音通道和視覺通道,更接近真實(shí)場景來誘發(fā)情緒。專家經(jīng)過一系列帥選評定,來判斷到底是通過畫面顏色還是視頻內(nèi)容來誘發(fā)的情緒,要把單一因素排除掉。

我們還在做的就是刻畫積極情緒,比如通過腕表或其他腦電設(shè)備,可以總結(jié)出一天的情緒變化狀態(tài),就像有的腕表可以測算走路消耗的卡路里,我們也可以記錄脈搏、一天情緒的分布,來建議改善健康或者學(xué)習(xí)效率等。

這是一個(gè)情緒素材的評定,過程非常艱辛,我們還是建立起來了。我們找了志愿者在中文視頻網(wǎng)站上收集材料進(jìn)行初評,然后找了專家在長度、理解性、區(qū)分度上進(jìn)行評判和劃分,最后開始正式實(shí)驗(yàn)、填寫量表、觀看影片,有一套標(biāo)準(zhǔn)程序。

對于積極情緒,它并不是排他性的,我們收集了20多種進(jìn)行聚類,形成了幾個(gè)大的區(qū)分度比較高的類別。

這套工作的基礎(chǔ)我們做的比較扎實(shí),建立好了這套情緒的理論數(shù)據(jù)庫后,就可以在圖形生成、語音畫面上做很多事情。

而腦電特征與圖像信號(hào)沒什么區(qū)別,只是不規(guī)則圖像視頻比較規(guī)則可以用負(fù)電卷積做CNN,腦電并不是規(guī)則的,可以用圖卷積網(wǎng)絡(luò)來處理。

基于多通道腦電信號(hào)的情緒識(shí)別技術(shù)

以前是基于單一某個(gè)通道的腦電信號(hào),特征是手工設(shè)計(jì)出來的,出于醫(yī)生的經(jīng)驗(yàn),最多能做到左半腦和右半腦有一個(gè)差,最多做到一階特征。現(xiàn)在我們用自動(dòng)學(xué)習(xí)來學(xué)一個(gè)非線性特征,我們的效果比較好的話,還能給神經(jīng)學(xué)家建議。

我們現(xiàn)在通過圖卷積網(wǎng)絡(luò),用LSTM網(wǎng)絡(luò)把非線性特征可視化出來,給到神經(jīng)學(xué)家建議和啟發(fā)。

小結(jié)

情緒影響行為和心理健康,廣泛應(yīng)用于機(jī)器人交互、圖形媒體生成領(lǐng)域;

在各類指標(biāo)中,腦電信號(hào)因自發(fā)性強(qiáng)、攜帶信息豐富、時(shí)間分辨率高,能獲得較好的情緒識(shí)別效果;

由于不同腦區(qū)的功能差異,基于多通道腦電信號(hào)的情緒識(shí)別技術(shù)逐漸產(chǎn)生,這些技術(shù)考慮通道間的關(guān)聯(lián)關(guān)系,更符合腦電信號(hào)的特性,推動(dòng)情緒研究的進(jìn)一步發(fā)展。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)