Technologie MIT Speech2Face dokáže rekonstruovat obraz obličeje člověka pouze na základě krátké zvukové nahrávky jeho mluveného projevu.
To je možné díky hluboké neuronové síti poháněné umělou inteligencí, která využívá miliony přirozených videí mluvících lidí z internetu.
Model vycvičili tak, že mu pomohli naučit se audiovizuální korelace mezi hlasem a obličejem, které umožňují aplikaci Speech2Face vytvářet obrazy zachycující různé fyzické atributy mluvčích, jako je věk, pohlaví a etnický původ.
„Náš model je navržen tak, aby odhalil statistické korelace, které existují mezi rysy obličeje a hlasy mluvčích v trénovacích datech. Tréninková data, která používáme, jsou sbírkou výukových videí z YouTube a nepředstavují stejnou měrou celou světovou populaci. Proto je model, jako v případě každého modelu strojového učení, ovlivněn tímto nerovnoměrným rozložením dat,“ uvedli výzkumníci.
Přihlaste se, komentujte články a ukládejte si ty nejzajímavější k pozdějšímu přečtení.
Přihlásit se přes náš web
Ještě nemáte účet? Staňte se členem.