紅外線監(jiān)控視頻或者是紅外線閉路電視的影像所存在的一個問題就是,它難以利用這些圖像來識別出人物的身份。面部在紅外線成像中看起來會有很大的不同,要將紅外線圖像與他們正常外觀的圖像進行匹配是一個尚未解決的挑戰(zhàn)。人們的外表在紅外線和可見光之間的關(guān)系是高度非線性的,紅外線其趨向于使用被動傳感器來檢測人體所散發(fā)出來的光線,而不是人體所反射的光線。
如今,德國卡爾斯魯厄理工學(xué)院的 Saquib Sarfraz 和 Rainer Stiefelhagen 表示,他們已經(jīng)研究出了如何建立中、遠(yuǎn)程紅外面部圖像,與對應(yīng)的可見光圖像的關(guān)系。他們已經(jīng)完美的教導(dǎo)神經(jīng)網(wǎng)絡(luò)來完成所有的工作。
面部散發(fā)紅外線的方式,與它反射光線的方式完全不同。散發(fā)的紅外線與空氣的溫度和皮膚的溫度十分相關(guān),而這些又取決于人體的活動水平,以及人體是否有發(fā)燒等情況的影響。
還有一個問題使得紅外線圖像難以辨認(rèn)面部:可見光圖像具有更高的解析度,而遠(yuǎn)紅外線圖像則低得多,這是由攝像機的性質(zhì)而定的。總之,這些因素使得匹配紅外線圖像與對應(yīng)的可見光圖像變得很難。
但是近年來深層神經(jīng)網(wǎng)絡(luò)在應(yīng)對各種復(fù)雜問題的改善上,給予了 Sarfraz 和 Stiefelhagen 啟發(fā)。為什么不訓(xùn)練神經(jīng)網(wǎng)絡(luò)通過觀察紅外線版本的圖像,從而識別可見光的面部?近年來,兩個重要因素的結(jié)合使得神經(jīng)網(wǎng)絡(luò)變得更加強大。
一是更好地了解如何建立和調(diào)整網(wǎng)絡(luò)來執(zhí)行任務(wù),這項技術(shù)領(lǐng)導(dǎo)了深度神經(jīng)網(wǎng)絡(luò)的創(chuàng)建。
二是大型注釋的數(shù)據(jù)集的可用性越來越高,它們可被用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
將紅外線與可見光圖像進行比較的數(shù)據(jù)集很難得到,不過 Sarfraz 和 Stiefelhagen 還是從圣母大學(xué)那得到了可用的數(shù)據(jù):來自于82人的4585張照片,有分辨率為1600×1200的可見光圖像,和分辨率為312 x 239的遠(yuǎn)紅外圖像。該數(shù)據(jù)集包含了人們面帶微笑、大笑,以及自然表情的圖像,并以兩種不同的光線條件來捕捉每天人們的外觀變化。
之后,他們將圖像分割成像素為20×20的相互重疊的各部分,從而擴充數(shù)據(jù)庫。最后,Sarfraz 和 Stiefelhagen 使用前41個人的圖像來訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò),并用另外41個人的圖像進行測試。
從測試結(jié)果來看,神經(jīng)網(wǎng)絡(luò)能夠在短短35毫秒內(nèi),完成熱成像圖與其對應(yīng)的可見光圖像的匹配。他們表示:“匹配速度非常得快,能夠以28fps的刷新率實時運行。”
但這并不意味著它已趨于完美。測試結(jié)果表明,最好的結(jié)果其精度也只是剛剛超過80%,而一對一的比較精度僅有55%。更高的精度顯然只有更大的數(shù)據(jù)集和更強大的網(wǎng)絡(luò)才能辦到,但因此其成本也會更高。不過對這項技術(shù)感興趣的客戶,很可能是那些涉及到安全相關(guān)的軍事、執(zhí)法機構(gòu)和政府等,它們并不缺錢。