Obsah
Stačí tvář: jak face id ovlivnil průmysl
Evoluce průmyslu Face ID: postřehy z online programu „Master of computer vision“
V rámci přijímací kampaně uspořádal online magisterský program „Master of Computer Vision“ webinář „Rozpoznávání tváře. Jak to funguje a jak se to láme? za účasti obchodního partnera programu, společnosti Huawei. Jeho účastníci se dozvěděli o základních principech fungování algoritmů Face ID a funkcích technologií rozpoznávání obličeje ve srovnání s jinými modely hlubokého učení a také o tricích, které zavádějí systémy umělé inteligence.
Průmyslový webinář vedl Stepan Komkov, senior algoritmický inženýr v Intelligent Image and Video Processing Lab Moskevského výzkumného centra společnosti Huawei. Po webináři odpovídal na otázky o algoritmech Face ID Andrey Savchenko, akademický ředitel programu „Master of computer vision“, profesor na katedře informačních systémů a technologií na Vyšší ekonomické škole v Nižném Novgorodu.
Andrej Savčenko
Foto: data.vk.company
— Andrey, řekni nám o problémech strojového vnímání obrazů obličeje, o kterých se na semináři diskutovalo?
— Metody rozpoznávání tváří z fotografií a videí se zkoumají více než půl století. Od 90. let se konají soutěže o nejlepší komerční a otevřené systémy pro ověřování a identifikaci osob. Úkolem ověření je určit, zda dvě fotografie obsahují obličeje stejné osoby nebo dvou různých osob. Přesně to se řeší například při odemykání smartphonu pomocí obličejového videa. Identifikační úkol zároveň odpovídá na otázku, kdo z daného seznamu osob je na fotografii vyobrazen. Řešení tohoto problému pomáhá vytvářet video monitorovací systémy, provádět biometrické platby (FacePay) atd.
— Jaké metody se používají k řešení těchto problémů?
– K vyřešení obou problémů se používají podobné metody, kdy je každá fotografie obličeje nebo videosnímek spojena s určitým deskriptorem – posloupností čísel, která jsou podobná pro fotografie stejné osoby, ale výrazně odlišná pro fotografie různých tváří. . Rozpoznávání obličeje tradičně používalo deskriptory speciálně vybrané výzkumníky, například geometrické charakteristiky vypočítané z dostatečně velkého počtu klíčových bodů obličeje.
— Jak přesné byly a kdy byla překlenuta propast mezi lidským a strojovým rozpoznáváním obličeje?
— Ukázalo se, že takové deskriptory jsou extrémně nestabilní: výrazně se měnily v závislosti na úhlu, zatímco přesnost výrazně klesala s měnícím se osvětlením, vzhledem brýlí, klobouků, vousů, knírů atd. Proto, pokud jde o překlenutí propasti v kvalitě rozpoznávání obličeje člověk-stroj, můžeme počítat do roku 2014, kdy byla neuronová síť FaceNet představena v článku „Closing the Gap to Human-level Performance in Face Verification“. Síť byla trénována pomocí speciálně shromážděných datových souborů rozdělených do tříd (asi 4,5 milionu fotografií více než 4 tisíc lidí). Předpokládalo se, že příznakový vektor získaný na výstupu předposlední vrstvy sítě je reprezentativní a může být použit jako deskriptor pro verifikaci a identifikaci dalších osob, které nejsou zastoupeny v trénovací sadě. V důsledku toho byla jeho kvalita, i když výrazně vyšší než u tradičních analogů, nedokonalá. O rok později byl představen nový školicí proces pro síť FaceNet, který dal silný impuls růstu tohoto odvětví. Studie zavedla paradigma Metric Learning do systému ověřování obličeje.
— Proč článek o FaceNetu vyvolal průmyslový boom?
— Model uvedený v článku dosáhl bezprecedentní přesnosti ověření — 99,63 % — na tradičním benchmarku LFW (Labeled Faces in the Wild). V důsledku toho byl článek o FaceNet citován více než 13 tisíckrát a dostal se do top 10 nejoblíbenějších materiálů v oblasti počítačového vidění. Autoři přišli se speciální ztrátovou funkcí: při trénování sítě pomocí ní není optimalizována pouze přesnost klasifikace tváří z trénovací datové sady, ale přesně to, co je potřeba – deskriptor tváře extrahovaný pomocí této sítě, aby vzdálenosti mezi příznakovými vektory pro různé fotografie konkrétní osoby byly menší než vzdálenosti od jeho příznakových vektorů k příznakovým vektorům jakýchkoli jiných lidí.
Díky této práci si výzkumníci počítačového vidění uvědomili, že při hledání matematických způsobů formulování problémů mohou jít nad rámec používání výkonnějších datových sad a hlubších modelů neuronových sítí. Přítomnost velkých dat ve fázi školení samozřejmě také zlepšuje kvalitu modelu. Například v roce 2015 obsahovala soukromá sada fotografií obličeje používaná k trénování FaceNetu více než 200 milionů snímků 8 milionů lidí. V posledních letech již byly veřejně dostupné soubory dat srovnatelné velikosti. Například v roce 2021 vydala University of Tijuana spolu s Imperial College London dataset WebFace260M obsahující 260 milionů fotografií 4 milionů lidí. Modely neuronových sítí, které jsou na něm trénovány pomocí vývoje nápadů FaceNet, zejména ztrátových funkcí ArcFace, nejsou o nic horší než komerční analogy známých společností.
— Jakým problémům a výzvám dnes čelí průmysl Face ID a výzkumníci vašeho programu?
— Jeden z důležitých problémů, které řešíme, souvisí se zvýšením výpočetní účinnosti rozpoznávání obličejů. Mohou zde nastat dva různé problémy. Za prvé, pokud je počet lidí, kteří mají být rozpoznáni, velký, pak výpočet vzdáleností mezi deskriptory vstupního video snímku a všemi jejich fotografiemi může trvat dlouho, takže buď budete muset opustit rozhodování v reálném čase, nebo vyvinout specializované vysokorychlostní algoritmy, jako je vyhledávání přibližného nejbližšího souseda nebo sekvenční analýza deskriptorů. Za druhé, doba potřebná k výpočtu deskriptoru pro každý snímek videa může být také poměrně dlouhá, zejména při práci na mobilních zařízeních s nízkým výkonem, takže vyvstává úkol vyvinout specializované mobilní deskriptory přizpůsobené architektuře konkrétního zařízení.
Samozřejmě existují i další problémy, které výzkumníci v současnosti řeší. Mimořádně relevantní je například úkol anti-spoofing – čelit klamání systémů Face ID pomocí speciálně připravených fotografií nebo videí jiné osoby, stejně jako používání masek nebo speciálního make-upu.
— Jak oklamat Face ID?
– Není to snadné, ale je to možné. Během semináře Štěpán Komkov hovořil o svém vývoji AdvHat. Jedná se o speciální typ adversariálního útoku na neuronové sítě, v důsledku čehož je výsledný deskriptor výrazně odlišný od deskriptoru tváří stejné osoby. Řečník zejména navrhl použití speciální nálepky nalepené na přední straně čelenky, v důsledku čehož byly nejlepší modely neuronové sítě v době zveřejnění článku zcela zmateny a poznaly úplně jinou osobu. Samozřejmě je vždy možné vyvinout speciální filtr pro boj s takovými útoky, ale je nemožné zajistit všechny možné útoky v typickém video monitorovacím systému jednoduše kvůli časovým omezením pro rozhodování v reálném čase.
— Jak návrh programu „Master of computer vision“ odpovídá výzvám průmyslu počítačového vidění?
— Program „Master of computer vision“ byl vyvinut vědci z Vysoké školy ekonomické a předními odborníky z Huawei, SBER Lab, Intel, AIRI, Xperience.ai, kteří se podílejí na pokročilém výzkumu v oblasti počítačového vidění. Vzdělávací koncept magisterského programu „Master of computer vision“ kombinuje současný výzkum v oblasti umělé inteligence, analýzy dat a strojového učení, včetně hlubokého učení, a také moderní postupy v oblasti počítačového vidění: metody zpracování, analýzy a syntéza obrázků a videí. Cílem magisterského programu je připravit specialisty, kteří budou schopni pracovat v jakýchkoli projektech souvisejících s rozpoznáváním objektů, vývojem video monitorovacích systémů, tvorbou 3D rekonstrukcí a fotografických filtrů, mobilními aplikacemi pro rozpoznávání objektů na fotografiích a videích, vytvářením 3D rekonstrukcí a fotografických filtrů. zavádění CV ve všech typech výroby v průmyslu, maloobchodu, lékařství, bankovnictví atd. Absolventi programu se ucházejí o pozice Softwarový inženýr počítačového vidění, Inženýr vnímání, Inženýr algoritmů XNUMXD vnímání / Počítačového vidění, Inženýr testování počítačového vidění, Vědec počítačového vidění, datový vědec, inženýr strojového učení. Interaktivní praktické lekce v programu poskytují příležitost soustředit se na řešení obchodních problémů od předních hráčů na trhu a rychle růst v profesi a budovat kariéru ještě během studia.