Egyre jobban olvasnak szájról a gépek

2016. március 27. 12:00
Brit kutatók algoritmusa komoly eredményeket ért el hangok és szavak azonosításában.

Helen Bear és Richard Harvey, a Kelet-Anglia Egyetem (Norwich) kutatói új szájról olvasó algoritmusával számítógépek jobban meg tudnak különböztetni egymástól az ajakon hasonlónak tűnő hangokat.

A gépitanulás-algoritmus pontosabban feltérképez adott fonémához kapcsolódó ajakformákat (viszémákat). Két lépésben tanítják: az elsőben megtanulja felvázolni az elvileg több fonémához kapcsolódó viszémát, majd megduplázza azt, és a másolatokat csak az egyik hangon gyakoroltatják.

A gyakorláshoz használt hangokat 12 beszélő 200 mondatának audió- és videofelvételeiből gyűjtötték össze. Bear gépilátás-algoritmusa kivonatolta a szájformákat, aztán a helyes viszémák kivonatolt és a fonémák audioadataival címkézte fel őket, végül az algoritmusba táplálta mindezt.

A korábbi technikákkal összehasonlítva, az algoritmus az idő 25 százaléka alatt azonosít hangokat, ami komoly előrelépés. A szavakat pedig 5 százalékkal pontosabban ismeri fel.
 

Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Bejelentkezés