A DeepMind MI jobban olvas szájról, mint egy profi

2016. november 30. 8:00
Masszív BBC-s adatsoron teszteltek szájról olvasó mesterségesintelligencia-rendszert, és sokkal jobb munkát végzett, mint egy profi.

A Google londoni DeepMindjának kutatói (az ő mesterséges intelligenciájuk győzte le a dél-koreai go-világsztárt, most pedig stratégiai játékban készül megmérettetni magát) és az Oxford Egyetem BBC tévéprogramok masszív adatsorára alkalmaztak mélytanulás-technikákat, hogy szájról olvasó rendszerük profiknál is jobban teljesítsen.

A rendszert 2010. január és 2015. december közötti hat tévéprogram 5 ezer órás anyagán gyakoroltatták. Mivel a klipek audió és videosztrímje többször nem volt szinkronban egymással, meg kellett tanulnia a hangok és a szájformák közti eltolódások korrigálását. Ez volt a kutatás alapfeltétele.

Magát a szájról olvasást 2016. március és szeptember közötti tévéprogramokon tesztelték, és a szavak 46,8 százalékát hibátlanul kisilabizálta. Összehasonlításként, profi szájolvasó mindössze 12,4 százalékos pontossággal dolgozott egy 200 klipből álló adatsoron. Ráadásul az MI főként kisebb hibákat vétett, például szóvégi „s” hangokat nem „vett észre.”

A kutatók szerint komoly potenciál rejlik a szájról történő automatikus olvasásban, hallókészülékektől kezdve zajos környezetben történő beszédfelismerésig számos területen alkalmazhatják.

Összesen 3 komment

Jelenleg csak a hozzászólások egy kis részét látja.
Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi.
Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Bejelentkezés