人臉識別技術哪家強?OPPO專利解讀:多幀超分與深度學習結合提升精度
知情郎·眼|
侃透天下專利事兒
聊過指紋識別、虹膜識別。
今天說人臉識別技術哪家強!
國內做人臉識別的科技公司不少。
在市場上名氣比較大的如炒作了N年的AI四小龍商湯科技、曠視科技、依圖科技、云從科技。
當年都打出過人臉識別國內第一的技術營銷牌!
百度智能云、阿里云、騰訊云這些大平臺就更不用說了,你點開阿里云,搜索人臉識別,就會跳出相關人臉識別服務,支持SDK調用,用起來很方便!
不過,從德高行全球專利數(shù)據(jù)庫檢索的結果看,國內跟人臉識別有關聯(lián)度的專利量,OPPO排第一!
之后淺析下OPPO的人臉識別專利布局。
從指紋識別、虹膜識別到人臉識別,OPPO做的工作真不少,至少,從專利量角度而言,人家還真跟生物識別技術杠上了。
01科普人臉識別
人臉上的眼睛、鼻子、嘴巴、眉毛等,既是人們的共性,同時也是區(qū)分個體的關鍵(因為其大小、形狀等不盡相同)。
我們經常用面部的特征來描述個體,機器同樣也可以做這件事。
機器通過對圖像處理,得到對這些圖像的集合特征描述(比如根據(jù)你的鼻子的顯著特點導出一組用于識別的特征度量如距離、角度等)
比較普遍的就是特征臉法,搜集大量的圖像進行分析,尋找人臉圖像分布的基本元素,即人臉圖像樣本集協(xié)方差矩陣的特征向量,以此近似地表征人臉圖像。
簡單解釋下,通過機器人臉檢測,可以從一幅幅圖像中提取出人臉區(qū)域。
但是想進一步了解人臉的信息,就需要人臉特征點定位,每個人的臉型輪廓、五官特征點是不同的,所以大家的特征點連接起來后也是不同的。
哪怕是整容了,也很難改變連接起來的整體特征點。
人臉識別,就是基于人的臉部特征信息進行身份識別的一種生物識別技術。
02整容臉會否影響人臉識別?
很多網友會問?一個人臉部多處整容,在機場人臉識別安檢中會否過不去?
知情郎也很好奇答案。
自從韓國女子整容潮風靡國內后,電視機里都是蛇精臉~
從大V們在行業(yè)技術論壇的交流結果來看,確實會有影響。
如果只是臉部發(fā)福變胖,臉部特征對稱點不變,沒什么影響。
但如果對輪廓線做了改變,如削下巴、動眼睛、整鼻子就要小心。
尤其鼻子整容將鼻梁徹底變了,開眼角拉眼皮,尤其還只對一只眼睛做整形,這會讓五官特征點大變樣,兩只眼還不對稱,這些都會影響AI的人臉識別判斷。
這些交流內容,也把知情郎看笑了。
人臉識別,最有意思的也是特征點定位。
人臉特征點定位是一種利用計算機分析人臉圖像,從而獲得諸如眼睛、鼻尖、嘴角點、眉毛以及人臉各部件輪廓點等等一些重要的特征點位置的技術,如下圖所示。
04人臉特征點定位的應用領域
人臉特征點定位應用在很多環(huán)節(jié)。
1、人臉檢測:人臉特征點的位置信息可以在人臉檢測中定位人臉、驗證人臉檢測的結果以及精確指明人臉位置。
2、人臉識別:即人臉特征點的結果。
3、姿態(tài)估計和凝視方向分析:在頭部姿態(tài)及定位提供的幾何特征等是人臉識別的重要信息,在人臉識別過程中一項重要工作就是人臉對齊,這主要依賴于人臉特征點定位人臉表情分析中,可以通過對五官的相對位置及形狀進行分析確定,人臉特征定位是姿態(tài)估計和表情分析的前提。
4、疲勞度檢測:人體的疲勞度會體現(xiàn)在人臉上,例如眨眼、打哈欠,通過人臉特征點定位可以進行分析。
5、三維人臉動畫合成:比如微軟開發(fā)的可供用戶體驗的基于正面人臉特征點定位的卡通畫生成系統(tǒng)CartoonMaker。
上述都是技術論壇行業(yè)工程師日常討論的東西,且現(xiàn)在美顏相機那么厲害,P圖狂人能活活把任何一女子照片美化成絕世美人,所以不是攝像頭實時視頻拍攝的圖片,經常出現(xiàn)識別錯誤的情況。
05技術發(fā)展歷史
傳統(tǒng)的人臉識別技術主要是基于可見光圖像的人臉識別,這也是人們熟悉的識別方式,已有30多年的研發(fā)歷史。
但這種方式有著難以克服的缺陷,尤其在環(huán)境光照發(fā)生變化時,識別效果會急劇下降,無法滿足實際系統(tǒng)的需要。
解決光照問題的方案有三維圖像人臉識別,和熱成像人臉識別。但這兩種技術還遠不成熟,識別效果不盡人意。
迅速發(fā)展起來的一種解決方案是基于主動近紅外圖像的多光源人臉識別技術。
它可以克服光線變化的影響,已經取得了卓越的識別性能,在精度、穩(wěn)定性和速度方面的整體系統(tǒng)性能超過三維圖像人臉識別。
這項技術使人臉識別技術逐漸走向實用化。
06人臉識別算法分類
人臉識別技術的核心是算法,比較知名的基礎性算法有三種。
1 特征臉法(Eigenface)
特征臉技術是近期發(fā)展起來的用于人臉或者一般性剛體識別以及其它涉及到人臉處理的一種方法。
該方法首先由Sirovich和Kirby(1987)提出(《Low dimensional procedure for the characterization of human faces》),并由MatthewTurk和AlexPentland用于人臉分類(《Eigen faces for recognition》)。
首先把一批人臉圖像轉換成一個特征向量集,稱為“Eigenfaces”,即“特征臉”,它們是最初訓練圖像集的基本組件。識別的過程是把一副新的圖像投影到特征臉子空間,并通過它的投影點在子空間的位置以及投影線的長度來進行判定和識別。
將圖像變換到另一個空間后,同一個類別的圖像會聚到一起,不同類別的圖像會聚力比較遠,在原像素空間中不同類別的圖像在分布上很難用簡單的線或者面切分,變換到另一個空間,就可以很好的把他們分開了。
Eigenfaces選擇的空間變換方法是PCA(主成分分析),利用PCA得到人臉分布的主要成分,具體實現(xiàn)是對訓練集中所有人臉圖像的協(xié)方差矩陣進行本征值分解,得到對應的本征向量,這些本征向量就是“特征臉”。
每個特征向量或者特征臉相當于捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個人臉都可以表示為這些特征臉的線性組合。
2 局部二值模式(Local Binary Patterns,LBP)
局部二值模式是計算機視覺領域里用于分類的視覺算子。
LBP一種用來描述圖像紋理特征的算子,該算子由芬蘭奧盧大學的T.Ojala等人在1996年提出(《A comparative study of texture measures with classification based on featured distributions》)。
2002年,T.Ojala等人在PAMI上又發(fā)表了一篇關于LBP的文章(《Multi resolution gray-scale and rotation in variant texture classification with local binary patterns》)。
這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉不變、等價模式的改進的LBP特征。
LBP的核心思想就是:以中心像素的灰度值作為閾值,與他的領域相比較得到相對應的二進制碼來表示局部紋理特征。
LBP是提取局部特征作為判別依據(jù)的。LBP方法顯著的優(yōu)點是對光照不敏感,但是依然沒有解決姿態(tài)和表情的問題。不過相比于特征臉方法,LBP的識別率已經有了很大的提升。
3 Fisherface
線性鑒別分析在降維的同時考慮類別信息,由統(tǒng)計學家SirR.A.Fisher1936年發(fā)明
(《THE USE OF MULTIPLE MEASUREMENTS IN TAXONOMIC PROBLEMS》)。
為了找到一種特征組合方式,達到最大的類間離散度和最小的類內離散度。
這個想法很簡單:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別盡量距離越遠。
1997年,Belhumer成功將Fisher判別準則應用于人臉分類,提出了基于線性判別分析的Fisherface方法(《Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection 》)。
知情郎就不展開具體的算法描述,網上技術論壇有大牛們的交流解讀,一堆密密麻麻的數(shù)據(jù)公式,看的腦殼疼,也不看懂。
整體來說,目前人臉識別的算法分為以下幾種:
1、基于人臉特征點的識別算法(Feature-based recognition algorithms)。
2、基于整幅人臉圖像的識別算法(Appearance-based recognition algorithms)。
3、基于模板的識別算法(Template-based recognition algorithms)。
4、利用神經網絡進行識別的算法(Recognition algorithms using neural network)。
5、基于光照估計模型理論
提出了基于Gamma灰度矯正的光照預處理方法,并且在光照估計模型的基礎上,進行相應的光照補償和光照平衡策略。
6、優(yōu)化的形變統(tǒng)計校正理論
基于統(tǒng)計形變的校正理論,優(yōu)化人臉姿態(tài);
7、強化迭代理論
強化迭代理論是對DLFA人臉檢測算法的有效擴展;
8、實時特征識別理論
該理論側重于人臉實時數(shù)據(jù)的中間值處理,從而可以在識別速率和識別效能之間,達到最佳的匹配效果。
07國內哪些玩家技術儲備深?
以臉部識別為關鍵詞,在德高行全球專利數(shù)據(jù)庫檢索得出,國內相關專利申請人排名如下
整體看,國內臉部識別專利主要分布在硬件、應用領域,至于臉部識別算法的反而不是最多的。
這也符合實際情況,行業(yè)經典算法都來自于國外大牛的研究。
OPPO在指紋識別、虹膜識別領域專利排第一,在臉部識別領域,專利量依然排第一。
這結果出乎知情郎意料之外,AI四小龍的曠視科技排第9,商湯科技不同企業(yè)主體分列22位、26位。
快速掃了上百個OPPO的臉部識別關聯(lián)專利。
大量專利都圍繞如何局性提高人臉識別效率展開,從環(huán)境采光、圖片壓縮方式、面部三維特征提取、特征匹配算法、硬件攝像頭自拍、面部識別啟動條件設置等多維度布局。
有意思的是,OPPO大量的人臉識別關聯(lián)專利用在了濾鏡美顏功能上,尤其在圖像處理上,第一用處不是特征提取識別,而是為了美顏,祛除圖像里的瑕疵斑點,讓照片人的皮膚變美!
在基礎性、根本性的算法上,沒看到OPPO的貢獻,至少,專利層面沒看到類似講述。
咋說呢?
OPPO的這些專利相對簡單......
08OPPO人臉識別專利解讀
技術背景介紹
人臉識別是基于人的臉部特征信息進行身份識別的一種生物識別技術,用攝像裝置采集含有人臉的圖像,并在圖像中檢測,進而對檢測到的人臉進行臉部識別,也可以稱之為人像識別、面部識別。
然而,在圖像中人臉較小或成像質量較差時,會降低人臉識別精度。
OPPO工程師提供了一種人臉識別方法,以提高人臉識別精度。
09步驟一 雙線性插值處理數(shù)字圖像
不廢話,看工程師的流程設計思路!
1、獲取針對目標人臉的連續(xù)N幀初始圖像。
N的取值范圍為[3,16],在N的取值范圍為[3,16]時,移動終端在人臉識別過程中的運算量增長程度與人臉識別精度提升程度較為經濟。
即,連續(xù)N幀初始圖N至少要連續(xù)3幀以上。
所以,要拿攝像頭排自己,時間要稍長點。
2、獲取所述N幀初始圖像中每幀初始圖像中所述目標人臉的人臉圖像。
專利語言過于拗口,通俗點解釋,獲取每幀初始圖像中目標人臉的人臉圖像可以是指從每幀初始圖像中裁切出目標人臉的人臉圖像。
簡單點說,獲取每幀初始圖像中目標人臉的中心點,將該中心點作為人臉圖像的中心點,裁切出預設尺寸的人臉圖像,該人臉圖像包含整個目標人臉。
所述N幀初始圖像對應N幀人臉圖像,所述N幀人臉圖像的尺寸相同,例如N幀人臉圖像的尺寸均為W×H,W為人臉圖像的寬度,H為人臉圖像的高度。
3、對N幀人臉圖像進行亞像素插值,獲得第一人臉圖像
對N幀人臉圖像進行亞像素插值,用于實現(xiàn)多幀超分,可以增加人臉圖像的真實細節(jié)數(shù)量,提升人臉圖像的細節(jié)清晰度,降低噪聲,獲得分辨率較高的第一人臉圖像。
在知情郎看來,OPPO的工程師實際在一幀幀修圖,來提高第一人臉圖像清晰度,只不過不是人工精修,而是通過算法潤色圖片細節(jié)清晰度。
解釋下,流程非常復雜。
1)從所述N幀人臉圖像中選取一幀人臉圖像作為參考人臉圖像;
2)對所述參考人臉圖像進行雙線性插值,獲得第三人臉圖像;
3)對剩余N-1幀人臉圖像中第i幀人臉圖像進行雙線性插值,獲得第四人臉圖像,i為大于零且小于或等于N-1的整數(shù);
4)將所述第三人臉圖像與所述第四人臉圖像進行圖像匹配,獲取所述第三人臉圖像中第一像素以及所述第四人臉圖像中與所述第一像素匹配的亞像素;
5)獲取所述第四人臉圖像中與所述亞像素相鄰的四個像素的像素值;
6)根據(jù)所述第四人臉圖像中與所述亞像素相鄰的四個像素的像素值,獲取所述第四人臉圖像中所述亞像素的像素值;
7)將所述第三人臉圖像中所述第一像素的像素值與所述第四人臉圖像中所述亞像素的像素值相加求平均,并將平均值作為所述第三人臉圖像中所述第一像素的像素值;
重復執(zhí)行步驟3、4、5、6、7步驟,直到遍歷完所述剩余N-1幀人臉圖像,并確定處理后的所述第三人臉圖像為所述第一人臉圖像。
用圖片理解下算法的意義
非圖片處理領域人士大概率是看不懂上面流程的,尤其第三人臉圖像、第四人臉圖像的意義,知情郎也是看的一頭霧水的。
不用糾結這些,第三人臉圖像、第四人臉圖像都是第一人臉圖像服務的,他們都是在增強人臉圖像的細節(jié),提高分辨率。
一組連續(xù)N幀人臉圖像,每一幀的圖像總是有細微不同的。一幀幀的再提煉共同點,補足細節(jié)真實感。
亞像素的像素值如何計算的公式,OPPO工程師是這樣的定義:
圖中OP1,1、OP1,2、OP2,1、OP2,2為第三人臉圖像中的像素;
OP1,1為第三人臉圖像中的第一像素,也為第四人臉圖像中的亞像素,IP1,1、IP1,2、IP2,1、IP2,2為第四人臉圖像中與像素相鄰的四個像素。
可利用下面這個公式計算第四人臉圖像中亞像素的像素值:
公式中IP1,1、IP1,2、IP2,1、IP2,2分別為像素IP1,1的像素值、像素IP1,2的像素值、像素IP2,1的像素值、像素IP2,2的像素值,公式中使用的權重即為偏移量。
簡單解釋下,上面就是雙線性插值算法在圖像處理過程中的簡單應用。
比如在圖像的縮放中,在所有的扭曲算法中,都可以利用該算法改進處理的視覺效果。
看不懂不用糾結,簡單科普,雙線性插值充分利用了鄰域像素的不同占比程度而計算得出最合適的插值像素,從而完成插值。
數(shù)學就是算法之源,數(shù)學不好,真的難混好!
10在提煉清晰度獲得第二人臉圖像
前面的動作都只是為了補足第一人臉圖像的清晰圖,當細節(jié)增強后的第一人臉圖像確定時,將所述第一人臉圖像輸入至預設神經網絡,獲得第二人臉圖像。
所述預設神經網絡可以是指預先設置的用于提高第一人臉圖像分辨率的神經網絡,包括但不限于圖像從深度重新排列為空間數(shù)據(jù)塊depth-to-space層。在多幀超分之后加入深度學習超分網絡(即預設神經網絡),該深度學習超分模型可以去噪音、去模糊,在保證人臉特征不變的基礎上,提高分辨率。
知情郎解釋下,第二人臉的分辨率必然要比第一人臉高,因為這一步也是對第一人臉的進一步細節(jié)優(yōu)化,形成第二人臉圖像。
最后,系統(tǒng)識別第二人臉圖像中的人臉。
整體來說,整個專利核心流程就是通過先獲取針對目標人臉的連續(xù)N幀初始圖像,再獲取每幀初始圖像中目標人臉的人臉圖像,并對N幀人臉圖像進行亞像素插值,獲得尺寸和分辨率均放大的第一人臉圖像,再將第一人臉圖像輸入至預設神經網絡,對第一人臉圖像進行圖像增強,進一步放大第一人臉圖像的尺寸和分辨率。
整個專利亮點就在于亞像素插值處理人物圖像,通過將多幀超分與深度學習相結合,提升人臉圖像中真實細節(jié)的數(shù)量,進而提高人臉識別精度。
對數(shù)字圖像處理算法感興趣的朋友可下載PDF,技術論壇里也有大量圖像處理之雙線性插值法心得體會。
學好數(shù)理化,走遍天下都不怕!不要搞嘴皮子弄話術,沒價值~
原文標題 : 人臉識別技術哪家強?OPPO專利解讀:多幀超分與深度學習結合提升精度
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網產業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市