“人機(jī)自然交互技術(shù)”的趨勢(shì)與挑戰(zhàn)
即便如此,第一個(gè)問(wèn)題我們還要闡述清晰,因?yàn)檫@不僅有市場(chǎng)趨勢(shì)問(wèn)題,還有商業(yè)路徑問(wèn)題。我們首先看下面一張圖片,我們知道全球最大的圖書(shū)館是美國(guó)國(guó)會(huì)圖書(shū)館,大概有3000多萬(wàn)本藏書(shū),若每本書(shū)按照100萬(wàn)字來(lái)統(tǒng)計(jì),總共也就30TB左右的數(shù)字容量,實(shí)際上人類(lèi)每年產(chǎn)生的文字資料總共也就160TB。相比之下,僅Facebook一家產(chǎn)生的數(shù)據(jù)就有300 x 365 TB,全球的數(shù)據(jù)可能超過(guò)了2000PB,而且這個(gè)總量還在快速增加。那么面對(duì)這些海量的數(shù)據(jù),我們?nèi)祟?lèi)怎么才能獲取知識(shí)?我們一生也不可能讀完美國(guó)國(guó)會(huì)圖書(shū)館的藏書(shū),就更沒(méi)有可能遍歷當(dāng)今的機(jī)器數(shù)據(jù)。當(dāng)然我們知道這其中很多都是重復(fù)數(shù)據(jù),但是篩選重復(fù)信息本身也是人類(lèi)學(xué)習(xí)的過(guò)程。顯然,我們?nèi)祟?lèi)無(wú)法記住1億人的面孔,也無(wú)法辨識(shí)1億人的聲音。人類(lèi)知識(shí)和機(jī)器知識(shí)實(shí)際上已經(jīng)開(kāi)始各成體系,機(jī)器顯然具有比人類(lèi)更強(qiáng)的知識(shí)去重、篩選、復(fù)制和迭代的能力,而我們?nèi)祟?lèi)知識(shí)想要獲得更快的發(fā)展,也必須依賴(lài)機(jī)器知識(shí)的支撐,這就必須要解決人類(lèi)知識(shí)和機(jī)器知識(shí)的交互相通問(wèn)題,怎么才能簡(jiǎn)單的把機(jī)器所理解的知識(shí)復(fù)制粘貼到人類(lèi)世界?以前文本時(shí)代我們有搜索引擎,那以語(yǔ)音圖像為主的人工智能時(shí)代呢?所以,我們必須要有人機(jī)自然交互系統(tǒng),只有這樣才能高效的獲取更有價(jià)值的機(jī)器知識(shí),才能解決未來(lái)數(shù)據(jù)爆炸時(shí)代的知識(shí)獲取問(wèn)題。至于商業(yè)化路徑,其實(shí)搜索引擎已經(jīng)做了很好的示范,人機(jī)交互系統(tǒng)肯定會(huì)催生更多的商業(yè)變現(xiàn)路徑。
至于第二點(diǎn)對(duì)于巨頭加入競(jìng)爭(zhēng)的擔(dān)憂,其實(shí)任何一個(gè)賽道只要未來(lái)市場(chǎng)空間足夠大,就必然會(huì)產(chǎn)生這種結(jié)果。巨頭為了支撐不斷攀升的市值,就必須布局未來(lái)天花板足夠高的產(chǎn)業(yè),即便這個(gè)產(chǎn)業(yè)的商業(yè)模式當(dāng)前還比較模糊,除非這個(gè)行業(yè)沒(méi)有足夠的商業(yè)空間或者戰(zhàn)略?xún)r(jià)值。我們一定要相信這個(gè)世界的聰明人很多,即便倒下了很多巨頭,也從來(lái)沒(méi)有哪個(gè)巨頭純粹是因?yàn)閼?zhàn)略方向問(wèn)題倒下的,更多的原因反而是巨頭在執(zhí)行方面出現(xiàn)了巨大的問(wèn)題,戰(zhàn)略其實(shí)也是一個(gè)執(zhí)行問(wèn)題。
但是我們也要承認(rèn)語(yǔ)音行業(yè)的不足,語(yǔ)音行業(yè)還比較缺乏對(duì)于商業(yè)落地的認(rèn)知,若比較圖像、語(yǔ)音和自動(dòng)駕駛這三個(gè)賽道,語(yǔ)音特別喜歡使用晦澀的術(shù)語(yǔ)比如自動(dòng)語(yǔ)音識(shí)別、自然語(yǔ)言理解等等來(lái)給技術(shù)貼標(biāo)簽,而不像人臉識(shí)別、車(chē)牌識(shí)別、自動(dòng)駕駛這樣直接對(duì)應(yīng)場(chǎng)景應(yīng)用。而更為麻煩的是,晦澀的術(shù)語(yǔ)不僅增加了商務(wù)對(duì)于場(chǎng)景的解釋難度,也拔高了客戶對(duì)于技術(shù)的應(yīng)用預(yù)期。這其實(shí)都非常不利于新技術(shù)在商業(yè)的規(guī)模化應(yīng)用。
舉個(gè)例子,“人機(jī)自然交互技術(shù)”就倒霉在這個(gè)術(shù)語(yǔ)上,這估計(jì)是人類(lèi)追求的終極夢(mèng)想,可以作為學(xué)術(shù)術(shù)語(yǔ),但是落地到產(chǎn)業(yè)這個(gè)名詞就過(guò)于抬高預(yù)期,非常不友好。坦誠(chéng)的來(lái)說(shuō),我們現(xiàn)在能做好人機(jī)任務(wù)對(duì)話特別是遠(yuǎn)場(chǎng)系統(tǒng)就相當(dāng)厲害了,至于能否挑戰(zhàn)人類(lèi)智慧現(xiàn)在還是看不到任何苗頭。即便作為學(xué)術(shù)名稱(chēng),卻也感覺(jué)有點(diǎn)單薄,不如學(xué)學(xué)通信領(lǐng)域用“G”來(lái)定義。這完全可以類(lèi)比,因?yàn)橥ㄐ沤鉀Q的是人和人交互的問(wèn)題,人機(jī)自然交互解決的是人和機(jī)器交互的問(wèn)題。隨著機(jī)器的數(shù)量越來(lái)越多而且越來(lái)越智能,人和機(jī)器的交互將是未來(lái)世界的主要問(wèn)題。若采用“G”來(lái)劃分人機(jī)交互技術(shù),則大概可以劃分成如下5代,和移動(dòng)通信類(lèi)似,當(dāng)前也就在第4代階段,距離5G還有一定的周期。
即便參照“G”的分類(lèi)方法也有很多種,若以商業(yè)普及作為重要的參考因素,個(gè)人覺(jué)得可以按照如下的方式來(lái)劃分:
第1代人機(jī)交互技術(shù):以旋鈕和鍵盤(pán)為代表,以模擬信號(hào)和字符為主要交互手段,可交互信息復(fù)雜度較高,效率很低,只能實(shí)現(xiàn)相對(duì)簡(jiǎn)單的任務(wù),但是可靠性也最強(qiáng)。這個(gè)階段的產(chǎn)品主要是包括打字機(jī)、電視、照相機(jī)、早期計(jì)算機(jī)、功能手機(jī)等各種電子設(shè)備,一般都是小巧簡(jiǎn)單的操作系統(tǒng)或者不用操作系統(tǒng)。
第2代人機(jī)交互技術(shù):以鼠標(biāo)為代表,以復(fù)雜圖形為主要交互手段,可交互信息復(fù)雜度較低,效率得到提升,易用性增強(qiáng),學(xué)習(xí)成本降低。這個(gè)階段的產(chǎn)品主要就是個(gè)人計(jì)算機(jī),Windows和Linux是代表性的操作系統(tǒng)。
第3代人機(jī)交互技術(shù):以觸摸屏為代表,以簡(jiǎn)單圖形為主要交互手段,可交互信息復(fù)雜度更低,易用性提升,學(xué)習(xí)成本急劇降低。這個(gè)階段的產(chǎn)品主要就是以觸摸屏為核心的智能手機(jī),IOS和Android是代表性的操作系統(tǒng)。
第4代人機(jī)交互技術(shù):以語(yǔ)音為代表,以遠(yuǎn)場(chǎng)語(yǔ)音為主要交互手段,從這個(gè)階段開(kāi)始,人機(jī)交互的作用半徑變得更遠(yuǎn),真正釋放了雙手,而且人機(jī)交互變得更加簡(jiǎn)單,同時(shí)人機(jī)交互和內(nèi)容服務(wù)耦合更強(qiáng),交互具備了知識(shí)學(xué)習(xí)和傳遞的屬性,但是由于存在更多模糊空間,遠(yuǎn)場(chǎng)語(yǔ)音交互的可靠性相對(duì)下降。Amazon Alexa、Baidu DuerOS、iFlytek iFlyOS和SoundAI Azero是代表性的交互系統(tǒng)。
第5代人機(jī)交互技術(shù):以多傳感融合為主要交互手段,可交互信息的理解度和可靠性更高,融合交互將成為人和機(jī)器互相學(xué)習(xí)的關(guān)鍵路徑,并且這個(gè)階段人機(jī)交互的智能程度和主動(dòng)程度都會(huì)得到大幅提升,機(jī)器可以感知人類(lèi)的情感并且與人發(fā)起主動(dòng)交互。
再總結(jié)探討一下,第5代人機(jī)交互(5G or 5I 5I means the fifth generationhuman-robot interaction technology)的技術(shù)趨勢(shì)可以暫時(shí)歸結(jié)為下面4個(gè)方向:
第1個(gè)方向就是遠(yuǎn)場(chǎng)化,雖然第4代人機(jī)交互就主打遠(yuǎn)場(chǎng)語(yǔ)音交互,但是我們要坦誠(chéng)地面對(duì)現(xiàn)實(shí)的殘酷,當(dāng)前的技術(shù)遠(yuǎn)沒(méi)有那么好,我們?cè)谶h(yuǎn)場(chǎng)可靠性方面還有很多難點(diǎn)沒(méi)有突破,比如多輪交互、多人噪雜等場(chǎng)景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。第5代技術(shù)應(yīng)該徹底解決這些問(wèn)題,讓機(jī)器聽(tīng)覺(jué)遠(yuǎn)超人類(lèi)的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí),包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。更為重要的則是基礎(chǔ)理論技術(shù)的進(jìn)步,特別是聲學(xué)的基礎(chǔ)理論突破,我們已經(jīng)等待太久了。當(dāng)然這也很難,比如生理聲學(xué)就受制于當(dāng)前實(shí)驗(yàn)條件和人類(lèi)倫理的約束比較難于突破,所以腦機(jī)接口當(dāng)前來(lái)看就更加困難,直接挑戰(zhàn)人類(lèi)智慧的技術(shù)路線當(dāng)前來(lái)看都不太靠譜。
第2個(gè)方向就是融合化,“聲光電熱力磁”這些物理傳感手段,必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類(lèi)知識(shí)的前提條件。而且,機(jī)器必然要超越人類(lèi)的五官,能夠看到人類(lèi)看不到的世界,聽(tīng)到人類(lèi)聽(tīng)不到的世界。機(jī)器的感知能力必須要超越人類(lèi),事實(shí)上眾多儀器也已經(jīng)達(dá)到了這個(gè)目標(biāo),只不過(guò),我們要把這些先進(jìn)的傳感手段做的更加小巧更加便宜更加可靠,這是高端技術(shù)能夠走進(jìn)尋常百姓家的關(guān)鍵所在。從當(dāng)前的技術(shù)進(jìn)展來(lái)看,聲音和圖像的融合更為成熟,關(guān)鍵就在遠(yuǎn)場(chǎng)化。圖像識(shí)別若應(yīng)用到消費(fèi)場(chǎng)景也必須遠(yuǎn)場(chǎng)化才行,比如說(shuō):抬眼一撇,從此便記住了她的容貌,而不是尷尬的站在攝像頭面前不知所措,這種交互體驗(yàn)非常不友好更不吸引人。
第3個(gè)方向就是智能化,這也是最難實(shí)現(xiàn)的,因?yàn)橹悄鼙旧淼亩x就是模糊的,這個(gè)智能化也不是類(lèi)人智能,而是人類(lèi)知識(shí)和機(jī)器知識(shí)互相傳遞的泛化,也就是讓機(jī)器可以理解人類(lèi)的模糊知識(shí),這并不是自然語(yǔ)義處理所能解決的事情。比如“像魚(yú)忘掉海的味道”,當(dāng)前再好的NLP引擎也無(wú)法釋義,同樣機(jī)器也無(wú)法準(zhǔn)確理解“小橋流水人家”,這就是意境。人也是這樣,高學(xué)歷也并不意味著有文化,比如我們AI公司,學(xué)歷都很高但是有時(shí)就比較缺文化。機(jī)器要智能就要有文化,那怎么來(lái)實(shí)現(xiàn)呢?人類(lèi)怎么做的呢?比如高考時(shí)候的語(yǔ)文和英文考試,想拿高分閱讀量就是一個(gè)硬指標(biāo),所以機(jī)器也要這樣,先不用管什么方法什么模型的,記憶的足夠多就會(huì)有顯著效果。數(shù)據(jù)足夠多的公司,未來(lái)必然也會(huì)比較聰明。
第4個(gè)方向就是主動(dòng)化,主動(dòng)化要在智能化的基礎(chǔ)上實(shí)現(xiàn),讓機(jī)器嘗試?yán)斫馊祟?lèi)情感表達(dá)。這才是人工智能最大的商業(yè)價(jià)值所在,因?yàn)槿撕腿酥g的交互過(guò)程中,特別是在有商業(yè)價(jià)值的地方,主動(dòng)交互占據(jù)相當(dāng)大的比例。想想其中的奧妙,當(dāng)前互聯(lián)網(wǎng)最為火熱的三大領(lǐng)域:搜索、電商和社交,歸根結(jié)底,到底是在做什么呢?搜索的商業(yè)變現(xiàn)為什么最終落在廣告業(yè)務(wù)呢?社交的商業(yè)變現(xiàn)為什么最終落在游戲業(yè)務(wù)呢?若想挖掘人機(jī)交互的商業(yè)價(jià)值,主動(dòng)交互就是關(guān)鍵的技術(shù)。只需要部分理解人類(lèi)思想和情感,就能稍稍影響人類(lèi)的決策,這就是巨大的商業(yè)空間。況且,機(jī)器沒(méi)有人類(lèi)的那么多情感負(fù)擔(dān),比如說(shuō)機(jī)器怎么說(shuō)甜言蜜語(yǔ)都不會(huì)覺(jué)得惡心,我們?nèi)祟?lèi)肯定不會(huì)把機(jī)器看成我們的上下級(jí)關(guān)系,也不會(huì)把人類(lèi)的框框強(qiáng)加于機(jī)器,當(dāng)然另外一個(gè)可能也是極為可怕,機(jī)器可能也無(wú)底線的無(wú)恥,其目的就是為了推銷(xiāo)一款商品。任何技術(shù)其實(shí)都有兩面性,但是掌握技術(shù)的是人類(lèi),是每一家的企業(yè),所以一家的企業(yè)價(jià)值觀決定了技術(shù)是服務(wù)人類(lèi)還是敗壞世界規(guī)則。歸根結(jié)底,還是人的問(wèn)題,人的問(wèn)題,也都是教育的問(wèn)題。要讓機(jī)器不斷學(xué)習(xí)更好的造福人類(lèi),人類(lèi)也應(yīng)該不斷學(xué)習(xí)適應(yīng)機(jī)器才是。
這點(diǎn)還要稍微展開(kāi)一下,人世間最難的莫過(guò)于重塑一個(gè)人的思想,以遠(yuǎn)場(chǎng)語(yǔ)音為核心的人機(jī)交互技術(shù)逐漸影響人類(lèi)的決策,想想這就是令人激動(dòng)的偉大事業(yè)。顯然,機(jī)器以海量的數(shù)據(jù)、強(qiáng)大的算力和優(yōu)異的算法為基礎(chǔ),永不疲憊的進(jìn)化迭代,遲早是能夠大概理解一下人類(lèi)的,這就足以影響一個(gè)人簡(jiǎn)單的決策了,我們?nèi)祟?lèi)其實(shí)也蠻懶的,日常小的決策非常依賴(lài)于周邊人群的建議,這就是一種趨同性,而機(jī)器恰恰擅長(zhǎng)參與并引導(dǎo)這種趨同性。當(dāng)然,若將這種能力用錯(cuò)了地方,對(duì)人類(lèi)的傷害也很大,所以搜索引擎的谷歌才會(huì)有“不作惡”這個(gè)價(jià)值觀,若沒(méi)有這個(gè)風(fēng)險(xiǎn)誰(shuí)會(huì)閑來(lái)無(wú)事提這個(gè)價(jià)值觀呢。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專(zhuān)題
- 1 【一周車(chē)話】沒(méi)有方向盤(pán)和踏板的車(chē),你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車(chē),還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋(píng)果偉大100倍!真正改寫(xiě)人類(lèi)歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類(lèi)何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開(kāi)啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市