天下云科技一文看懂人臉識別技術(shù)發(fā)展脈絡(luò)
更多AI精彩內(nèi)容,可點擊下文“了解更多” 編者導(dǎo)讀
人臉識別可以說是人工智能領(lǐng)域中成熟較早、落地較廣的技術(shù)之一,從機場、火車站的安檢閘機,到平常用戶中的“臉”支付,人臉識別技術(shù)已經(jīng)深入到我們的生活當(dāng)中。
為了讓各位讀者深入淺出地全面了解人臉識別技術(shù),InfoQ 與蘇寧科技人工智能實驗室進行了約稿,本文就是“人臉識別系列”文章的開篇——《人臉識別發(fā)展脈絡(luò)》。
本文將全面講述人臉識別發(fā)展的幾個重要階段,并整理出了人臉識別領(lǐng)域的一些重要的技術(shù)標(biāo)準(zhǔn)、公開測試以及知名廠商,如果你需要深入了解人臉識別技術(shù),可以從本篇文章開始。
1 人臉識別發(fā)展概述
人臉識別問題可以描述為,給定某一場景下的靜態(tài)圖象或者動態(tài)序列,根據(jù)預(yù)先存儲的人臉數(shù)據(jù)庫識別或者認證場景中一個或者多個人的身份。
早期的人臉識別多采用傳統(tǒng)機器學(xué)算法,經(jīng)典的算法如特征臉結(jié)合線性判別分析。而且研究關(guān)注的焦點更多集中在如何提取更有鑒別力的特征上,以及如何更有效的對齊人臉。隨著研究的深入,傳統(tǒng)機器學(xué)算法人臉識別在二維圖象上的性能提升逐漸到達瓶頸,于是大多數(shù)人開始轉(zhuǎn)而研究視頻中的人臉識別問題,或者結(jié)合三維模型的方法去進一步提升人臉識別的性能,少數(shù)學(xué)者開始研究三維人臉的識別問題。
圖 1 傳統(tǒng)人臉識別算法發(fā)展階段
在 年、 年左右,隨著深度學(xué)的方法在手寫字符識別上的性能超越了傳統(tǒng)機器學(xué)算法,以及 GPU 并行計算的大規(guī)模普及,開始有學(xué)者研究基于深度學(xué)的人臉識別算法。很快,在最出名的 LFW 公開庫上,深度學(xué)算法一舉突破了傳統(tǒng)機器學(xué)算法在二維圖像上人臉識別性能的瓶頸,首次將識別率提升到了 97% 以上,一下子引起世人轟動。但是隨著研究的進一步深入,業(yè)內(nèi)形成了一個普遍的共識就是大量的數(shù)據(jù)是深度學(xué)模型提升性能的關(guān)鍵。所以深度學(xué)發(fā)展到現(xiàn)在,走回了傳統(tǒng)機器學(xué)算法的路子,就是大家開始轉(zhuǎn)而研究視頻中的人臉識別,或者追求在識別精度不變的情況下,用更小的模型,更快的速度去識別人臉,甚至重新開始結(jié)合三維模型的一些方法,或者轉(zhuǎn)而研究三維人臉的識別問題。
2 傳統(tǒng)機器學(xué)算法
圖 1 是傳統(tǒng)機器學(xué)算法下,從原始特征的角度看到的人臉識別經(jīng)歷的幾個主要的發(fā)展階段,分別歷經(jīng)從幾何特征到表象特征到紋理特征的發(fā)展過程。
早期的研究是基于高層特征的幾何參數(shù),包括面部器官的幾何特性,如雙眼間距、頭寬、鼻高,和面部關(guān)鍵特征點的相對幾何關(guān)系,如兩眼角和鼻尖的距離比等,代表性的工作是 Bledsoe 于 年構(gòu)建的半自動人臉識別系統(tǒng)。
但是人臉關(guān)鍵點(特征點)的精確定位本身就是一個比較困難的問題,容易受到姿態(tài)和表情等變化的影響,從而導(dǎo)致特征很不穩(wěn)定;直到現(xiàn)在,人臉特征點定位仍然是人臉?biāo)惴ㄗ钪匾囊粋€研究方向。同時提取到的幾何特征過于簡單,丟失了大量的圖象鑒別信息,降低了不同人之間的可分性。所以基于幾何特征的算法魯棒性很差,總體識別準(zhǔn)確率不高,不可能構(gòu)建有實際應(yīng)用價值的人臉識別系統(tǒng)。
圖 2 一種基于表象特征和子空間分析的人臉識別算法
20 世紀(jì) 80 年代以后主流人臉識別的特征提取方法進入了基于二維人臉表象的階段,并一直持續(xù)到深度學(xué)出現(xiàn)之前。這類方法提取的不再是具有一定語義信息的特征,而是從圖象中抽取底層物理特征,典型的底層特征包括圖象灰度特征、圖象變換系數(shù)或濾波系數(shù)(如離散余弦變換、小波變換、Gabor 變換)、局部紋理描述 (如 LBP、HGPP、LGBP、HOG)等。表象原始特征的空間維數(shù)很高,不利于訓(xùn)練和識別;并且提取的原始特征大多是從精細描述的角度出發(fā),保留了對識別不利的噪聲干擾。因此需要進行進一步的特征降維,使鑒別信息得以集中。
在基于表象特征的人臉識別發(fā)展階段中,基于神經(jīng)網(wǎng)絡(luò)的方法也曾興起過一陣,但是當(dāng)時受限于軟硬件的條件,只能采用淺層的線性神經(jīng)網(wǎng)絡(luò),所以效果并不突出。
除了神經(jīng)網(wǎng)絡(luò)的方法,基于子空間分析的方法也在人臉識別的研究中逐漸占據(jù)了主流。子空間分析主要研究的是特征分析與分類算法,企圖在提取到的人臉特征中,通過特征降維、變換等多種手段,提升特征的鑒別能力。從實際角度而言,后期基于傳統(tǒng)機器學(xué)算法的人臉識別通常會將基于表象特征和子空間分析的方法結(jié)合起來,共同提升人臉識別的性能。
圖 3 人臉的表象特征
在子空間分析的方法中,對表象特征進行壓縮處理成為了主流的方案。特征壓縮不僅是降低維數(shù)的需要,也是提取鑒別信息的需要。在心理學(xué)研究和計算機視覺研究的促進下,人們開始認識到人臉類別本身僅僅占據(jù)原始特征高維空間的一個低維子空間 [38-42],這是由人臉拓撲結(jié)構(gòu)的高度統(tǒng)一性和人臉圖象象素之間的高度相關(guān)性所決定的。
人臉認知的問題之一就是尋找這一低維子空間,在認知研究中研究者大量采用主成分分析 (Principal Component Analysis, PCA) 來重構(gòu)人臉。相應(yīng)的子空間方法也成為人臉識別的主流方法之一 [43]。Turk 和 Pentlend 在 年首先將 PCA 應(yīng)用于人臉識別,提出了具有里程碑意義的本征臉?biāo)惴?(Eigenface)[44-45]。受此啟發(fā),研究者將統(tǒng)計分析、信號處理、機器學(xué)等多個領(lǐng)域的成果用于人臉識別,又演繹出了鑒別主成分分析 [46](Discriminant KarhunenLoéve)、線性鑒別分析 [47] (Linear Discriminant Analysis, LDA)、局部特征分析 [48](Local Feature Analysis, LFA)、獨立主成分分析 [49](Independent ComponentAnalysis, ICA)、核主成分分析 / 線性鑒別分析 [50-51] (Kernel PCA/LDA)、非負矩陣分解 [52-53](Non-negative Matrix Factorization, NMF)、局部線性嵌入 [54](Locally Linear Embedding, LLE)、局部保持映射 [55](Locality Preserving Projection, LPP)等子空間分析法。根據(jù)在構(gòu)建子空間時是否使用類別信息,這些方法可以分為監(jiān)督和非監(jiān)督兩大類。它們描述了人臉樣本的統(tǒng)計變化,試圖將對表示或?qū)ψR別最關(guān)鍵的信息保留在降維后的低維空間中,同時也可以緩解維數(shù)危機。
隨著傳統(tǒng)算法的性能趨于飽和,研究者們開始從信息源的角度,將人臉識別從二維靜止圖象向三維人臉和視頻人臉拓展。前面提到的方法都是在二維圖象上提取特征。90 年代中期以后,由于三維采集技術(shù)的發(fā)展,基于三維的人臉識別算法逐漸出現(xiàn)。一類算法直接基于三維掃描儀獲得的三維數(shù)據(jù)進行識別,其中三維數(shù)據(jù)的表示格式主要有三維點集、曲面網(wǎng)格、深度圖和 EGI (Extended Gaussian Image) 幾種,匹配的方法大致可以分為空域直接匹配、局部特征匹配、整體特征匹配,此外還出現(xiàn)了將 2D 和 3D 融合的人臉識別算法。由于三維數(shù)據(jù)采集仍然比較困難而且耗時較長,三維數(shù)據(jù)的處理也較為復(fù)雜,因此這類方法還無法投入實際應(yīng)用。
另外一類可以稱為三維輔助的二維方法。算法借助三維模型的輔助,從二維圖象學(xué)其在不同姿態(tài)、光照條件下的表象變化,以達到算法對姿態(tài)、光照魯棒目的。這類方法兼具二維方法的速度優(yōu)勢和三維方法的性能優(yōu)勢,成為一個新興的研究方向。這類研究認為,對人臉進行精細分析時還需要利用人臉不同器官的信息,而僅基于人臉表象的方法雖然得到人臉的整體信息但對細節(jié)信息的描述存在不足,因此從 20 世紀(jì) 90 年代起,研究者提出了一些對人臉的形狀和紋理聯(lián)合建模方法。
類是基于圖模型來描述人臉形狀,彈性束圖匹配 [56](Elastic Bunch Graph Matching, EBGM)方法是在此期間出現(xiàn)的典型算法。這種方法將人臉描述為一個屬性拓撲圖,拓撲圖本身可以進行一定的彈性形變,圖中每個節(jié)點的屬性是通過統(tǒng)計學(xué)得到的局部表象特性。在匹配時,人臉形狀的形變以節(jié)點的匹配程度為指導(dǎo),以達到整個人臉和圖模型的最佳匹配。
另一類是參數(shù)化模型方法,這類方法對人臉形狀的描述不是采用彈性模板,而是利用大量樣本訓(xùn)練得到的點分布模型 [57](Point DistributionModel, PDM)。這類方法在人臉的檢測定位和識別中得到了廣泛應(yīng)用,典型算法如柔性表象模型 [58](Flexible Appearance Mode, FAM)、主動形狀模型 [59] (Active Shape Model, ASM)和主動表象模型 [60-61](Active Appearance Model, AAM)等。
隨著視頻監(jiān)控技術(shù)在安全等領(lǐng)域的廣泛應(yīng)用, 年以后開始興起了對視頻中人臉識別的研究。相對靜止圖象而言,視頻圖象序列包含了更為豐富的表象信息,而視頻中的時空信息比如身份的連續(xù)性,人臉姿態(tài)、表情變化的連續(xù)性,在整個圖象區(qū)域空間上的連續(xù)性也可以用以提高識別的準(zhǔn)確性。這就使得人臉識別的研究進入了一個利用多模態(tài)信息和多生物特征融合的新的發(fā)展階段。
這些研究可以根據(jù)應(yīng)用中目標(biāo)集和查詢集的不同粗略分為三類:圖象(多幅圖象)對視頻、視頻對圖象(多幅圖象)和視頻對視頻的算法。一般對視頻序列要利用其時空狀態(tài)信息,有選擇性地學(xué)建立樣本分布的類別模型,采用某些融合策略融合多幀識別結(jié)果。
綜上所述,人臉識別的研究在原始特征層次從早期幾何特征逐漸發(fā)展為主流的表象特征;在信息源層次從基于二維靜止圖象的人臉識別在向三維人臉識別和視頻人臉識別的方向擴展;在特征壓縮層次逐漸發(fā)展為子空間為主流;基于人臉三維形狀和紋理聯(lián)合建模方法為人臉識別和分析提供了另一種思路。 更多AI精彩內(nèi)容,可點擊下文“ 了解更多”
3 基于深度學(xué)算法
自從進入深度學(xué)的時代以來,各家的人臉識別算法就逐漸趨于一致,基本上沒有什么特別的亮點,不像傳統(tǒng)機器學(xué)時代呈現(xiàn)出百花齊放的色彩。普遍的思路就是利用 CNN 網(wǎng)絡(luò)建立的高維模型,直接從輸入的人臉圖像上提取有效的鑒別特征,直接計算余弦距離來進行人臉識別,算法結(jié)構(gòu)趨同。不過,從大體上來說,基于深度學(xué)的人臉識別發(fā)展仍然可以分為三個階段。
個階段為深度學(xué)在人臉識別研究中應(yīng)用的早期階段,從最開始的 VGG 網(wǎng)絡(luò)到 Inception 網(wǎng)絡(luò)再到 Resnet 網(wǎng)絡(luò),網(wǎng)絡(luò)模型總體上呈現(xiàn)出更深,更寬的趨勢。在一些學(xué)術(shù)上的公開數(shù)據(jù)集如 LFW、MegaFace 上面,只要進行針對性的結(jié)構(gòu)設(shè)計以及參數(shù)調(diào)整,適當(dāng)擴大數(shù)據(jù)集合或者進行數(shù)據(jù)增強,都能取得差不多很好的效果。但是從實際應(yīng)用的角度來說,普遍泛化性能不好,不具有實際應(yīng)用的價值。
第二階段發(fā)展就是以曠視、商湯為代表的在學(xué)術(shù)公開競賽中取得好成績的這些廠商,開始發(fā)展實際業(yè)務(wù)為起點,通過不斷擴大他們的實際數(shù)據(jù)集合,算法性能也在逐漸的提升。到 年左右,基于深度學(xué)的算法無論在學(xué)術(shù)測試集合上還是在實際應(yīng)用上,表現(xiàn)都遠遠超越了基于傳統(tǒng)機器學(xué)的算法。人臉識別算法到此完成了深度學(xué)算法的大一統(tǒng)。
到了第三階段,除了進一步增加數(shù)據(jù)量以提升算法性能以外,與階段相反,大家開始在不降低識別性能的基礎(chǔ)上,研究網(wǎng)絡(luò)的輕量化。輕量化的主要目的有兩個,一個是提升算法的速度,甚至能夠部署到移動端;另外一個就是便于硬件實現(xiàn),從而將人臉識別算法直接做成一個硬件模塊。
同時,與傳統(tǒng)機器學(xué)算法類似,各家也開始研究視頻中的人臉識別(監(jiān)控場景),同時開始結(jié)合一些三維信息去進一步提升識別性能。
未來,人臉識別的發(fā)展應(yīng)當(dāng)仍然分成上述兩個方向,一個方向從有效挖掘海量人臉數(shù)據(jù)的角度出發(fā),進一步提升模型性能;另外一個方向則是將人臉識別模型輕量化以便實現(xiàn)移動端部署或者做成一個芯片模組。
我個人認為未來的人臉識別算法一定是嵌入到硬件中,成為一個標(biāo)準(zhǔn)化的生物特征認證模組。
4 人臉識別領(lǐng)域的標(biāo)準(zhǔn)制定的情況
4.1 國內(nèi)標(biāo)準(zhǔn)制定
?GA/T— 近紅外人臉識別設(shè)備技術(shù)要求
?GA/T922.2— 安防人臉識別應(yīng)用系統(tǒng) 第 2 部分: 人臉圖像數(shù)據(jù)
?GA/T394— 出入口控制系統(tǒng)技術(shù)要求
正在制定中的公安行業(yè)標(biāo)準(zhǔn)與國家標(biāo)準(zhǔn)
?安防生物特征活體檢測技術(shù)要求
?安防人臉識別應(yīng)用系統(tǒng) 第 5 部分:設(shè)備接口技術(shù)要求
?GB/T - 安全防范系統(tǒng) 視頻監(jiān)控人臉識別系統(tǒng)技術(shù)要求
?人臉識別信息交換規(guī)范
?人臉識別系統(tǒng)術(shù)語
?人臉特征規(guī)范
?文字?jǐn)?shù)據(jù)項規(guī)范和格式
?人臉識別系統(tǒng)功能
?人臉識別系統(tǒng)性能指標(biāo)
?人臉識別系統(tǒng)代碼
?人臉識別系統(tǒng)測試標(biāo)準(zhǔn)
4.2 國際標(biāo)準(zhǔn)制定
目前,國際上與人臉識別以及本平臺有關(guān)的標(biāo)準(zhǔn)主要有:
* ISO/IEC -37: 信息技術(shù) 術(shù)語 第 37 部分:生物特征識別
* ISO/IEC 系列,信息技術(shù) 生物特征識別應(yīng)用程序接口
* ISO/IEC 系列,信息技術(shù) 公用生物特征識別交換格式框架
* ISO/IEC -1: 和 ISO/IEC -1: 信息技術(shù) 生物特征識別數(shù)據(jù)交換格式 第 1 部分 框架(06 版和 11 版)
* ISO/IEC -5: 和 ISO/IEC -5: 信息技術(shù) 生物特征識別數(shù)據(jù)交換格式 第 5 部分 人臉圖像數(shù)據(jù)(05 版和 11 版,國標(biāo)對應(yīng) 11 版)
* ISO/IEC 系列,信息技術(shù) 生物特征識別性能測試和報告,該系列對應(yīng)國家標(biāo)準(zhǔn) GB/T 系列
* ISO/IEC : 信息技術(shù) 生物特征識別 BioAPI 互通協(xié)議
* ISO/IEC 系列,信息技術(shù) 生物特征識別應(yīng)用程序接口(BioAPI)的符合性測試
* ISO/IEC -1: 信息技術(shù) ISO/IEC 中定義的生物特征數(shù)據(jù)交換格式的符合性測試方法 第 1 部分:通用符合性測試方法
* ISO/IEC -5: 信息技術(shù) ISO/IEC 中定義的生物特征數(shù)據(jù)交換格式的符合性測試方法 第 5 部分:人臉圖像數(shù)據(jù)(該標(biāo)準(zhǔn)對應(yīng) ISO/IEC -5:,ISO/IEC -5: 的符合性測試方法在該標(biāo)準(zhǔn)的附錄中)
* ISO/IEC -1: 信息技術(shù) 生物特征樣本質(zhì)量 第 1 部分:框架
* ISO/IEC TR -5: 信息技術(shù) 生物特征樣本質(zhì)量 第 5 部分:人臉圖像數(shù)據(jù)
* ISO/IEC -1: 信息技術(shù) 生物特征識別呈現(xiàn)攻擊檢測 第 1 部分:框架
5 人臉識別領(lǐng)域的知名廠商
在原來基于傳統(tǒng)機器學(xué)算法進行人臉識別的廠商中,國內(nèi)比較有名的公司主要有北京海鑫、上海銀晨、中科奧森、漢王科技;國內(nèi)有名的研究者主要有中科院李子青老師,以及清華的丁曉青和蘇光大兩位老師。
近幾年由于人臉識別算法的提升,涌進許多新鮮血液的互聯(lián)網(wǎng)模式公司。這些公司無論從算法性能還是算法迭代更新的速度上,都遠遠超越前面提到的那些傳統(tǒng)廠商。在這眾多的公司當(dāng)中,排在集團的應(yīng)當(dāng)是上海依圖、曠視科技、、商湯科技和云從科技這四家公司。
傳統(tǒng)機器學(xué)算法年代,國外比較有名的公司主要有 NEC,而到了深度學(xué)的時代,可以說國外廠商的人臉識別性能普遍不如國內(nèi)公司,主要原因就是他們沒有那么多的人臉數(shù)據(jù)以供訓(xùn)練,市場也不如國內(nèi)大。目前比較有名的公司如俄羅斯的 Vocord 公司,目前應(yīng)該是在 NIST 測試中獲得了比較好的名次,目前該測試應(yīng)該是上海依圖。而類似谷歌、Facebook 等企業(yè),都不是專業(yè)的人臉識別企業(yè)。
對各個廠家做個簡要說明如表 1.
當(dāng)然,我們蘇寧在人臉識別領(lǐng)域也展開的許多卓有成效的工作。只是過去我們在人臉識別領(lǐng)域所開展的研究主要服務(wù)于自身的業(yè)務(wù)場景,并沒有對外進行過多的宣傳,所以很多人并不知道在蘇寧還有一個非常精干且有能力的人臉識別研發(fā)團隊。
年 3 月,蘇寧的人臉識別在 LFW 上的精度達到了 99.83%,, MegaFace 的 Challenge 1 中的 FaceScrub 測試集上也拿到了第三名,超越國內(nèi)外眾多知名公司。我們會在系列二中詳細介紹蘇寧的人臉識別及最新進展。
6 人臉識別領(lǐng)域的公開測試
6.1 國際測試
國際上多以美國國立標(biāo)準(zhǔn)技術(shù)研究所(簡稱 NIST)組織的測試為準(zhǔn)。NIST 測試對大學(xué)、研究機構(gòu)和商業(yè)公司開放,提供了指紋、人臉、虹膜等多生物特征方面的測試。參加者提供算法 SDK 給 NIST 以參加測試,人臉識別方面主要有兩個:
1)NIST-FRVT 靜態(tài)人臉識別測試
2)NIST-FIVE 視頻人臉識別測試
NIST 測試的主要目標(biāo),既可以為行業(yè)提供標(biāo)準(zhǔn),并為技術(shù)發(fā)展提供導(dǎo)向,又可以為用戶提供一個選擇的依據(jù)。
NIST 測試的流程大概如下:
* 提交申請并郵件手寫簽名申請表。
* 按當(dāng)年 NIST 要求封裝 SDK,在公開驗證庫上生成特征比對,將特征、比對結(jié)果加密方式發(fā)到指定工作人,進行初步測試評估。
* 初測要求,環(huán)境是 Linux 的系統(tǒng)下,不允許多線程調(diào)用,官方對系統(tǒng)、庫的版本、命名、接口等進行符合性驗證。
* 通過初測后,將封裝好的 SDK 發(fā)過去做詳細測試,測試數(shù)據(jù)集不公開。
* 等待測試結(jié)果報告,報告網(wǎng)站公開發(fā)布,參測廠商以代號形式出現(xiàn)在報告中。
6.2 國內(nèi)測試
國內(nèi)有一些測試是參考國標(biāo) (安防) 和企標(biāo)來執(zhí)行,多是委托性測試。以海鑫參加過的人臉識別系統(tǒng)企業(yè)標(biāo)準(zhǔn)測試的情況為例說明大概流程如下:
* 意向單位,撰寫產(chǎn)品企標(biāo),及企標(biāo)測試方法。
* 提交申請至相關(guān)部門進行審核及評估(企標(biāo)和測試方法)。
* 產(chǎn)品包進行打包送檢驗證(名稱、版本號、系統(tǒng)運行平臺等)信息驗證。
* 現(xiàn)場搭建調(diào)試運行及按撰寫企標(biāo)詳細測試。
* 等待測試結(jié)果報告。一般以軟件測試紙質(zhì)報告形式提供給受測單位。
6.3 學(xué)術(shù)測試
LFW、MegaFace 等,這些由大學(xué)等研究機構(gòu)組織,測試樣本集可公開下載,測試流程不嚴(yán)格,測試結(jié)果權(quán)威性不高。
* 測試數(shù)據(jù)集合公開下載。
* 在測試集合上測試完畢,將結(jié)果提交學(xué)術(shù)機構(gòu)并在網(wǎng)上公布,無需提供 SDK。
7 總結(jié)
作為本系列文章的篇,我們主要從人臉識別的發(fā)展歷史入手給大家稍微梳理了一下人臉識別技術(shù)的發(fā)展、國內(nèi)外的主要廠商以及一些比較有名的測試。在后續(xù)的文章中,我們會進一步給大家詳細介紹現(xiàn)在人臉識別的主流算法及相關(guān)技術(shù)細節(jié)、業(yè)內(nèi)應(yīng)用人臉識別算法的主要方式以及我們蘇寧在人臉識別方向做出了哪些有益的探索。 作者簡介
蘇寧科技人工智能實驗室 圖像技術(shù)專家何智翔
畢業(yè)于清華大學(xué) THOCR 實驗室,師從國內(nèi)著名人工智能專家 IEEE fellow 丁曉青教授,十余年來一直從事人臉相關(guān)算法的研究。現(xiàn)任蘇寧科技人工智能實驗室圖像技術(shù)專家,主要研究方向為人臉屬性的識別、商品的檢測和識別。 更多AI精彩內(nèi)容,可點擊下文“ 了解更多” svserve.com svserve.com