Beszédfelismerés és mesterséges intelligencia

2015. december 15. 9:38

Jordan Novet
VentureBeat
A Microsoft nem ül a babérjain, a Cortana-t most portolta az iOS alapú eszközökre és már egy újabb hasonló Custom Recognition Intelligence Service (CRIS) megoldáson dolgozik.

„Igaz ez a Siri féle megoldást akarja leginkább lemásolni, vagyis élő beszédből szeretne az azt pontosan visszaadó szöveget gyártani (speech2text). Be is mutatta az új alkalmazás 2 változatának API-ját (application programming interfaces) a fejlesztőknek. Az egyik egy hangfelismerő és azonosító algoritmus lesz, a másik az, ami az élőbeszédet írottra alakítja, ha minden igaz még ez évben béta verzió is kikerül belőlük. A fejlesztések mögött a kísérleti projekteket a redmondi cégnél végző Project Oxford stúdió áll, ez évben már egy remek mesterséges intelligenciás alkalmazással is előrukkolt (a képeken szereplő emberek érzelmi állapotát detektálta sikerrel az MI). Az API felismeri és azonosítja is a beszélő embert a videó felvételeken, gyakorlatilag mozgásukból, gesztusaikból és az arcukból rak össze egy mintát, amit sikeresen meg is talál később más videókon is. Képes arra is, hogy kiemelje ezeket a részeket és a »felesleget« ki is szűrje a felvételekből, felgyorsítva a későbbi részletes azonosítási folyamatokat. A szöveget le is »fordítja« érthető változatban egy szövegbe, olyan, mintha szájról olvasna.


A cél az, hogy az azonosítást hétköznapi helyszíneken is sikerrel lehessen elvégezni, ahol zajos a környezet, mint egy metróállomás vagy egy pályaudvar, az algoritmus pedig a kívánt paramétereknek megfelelően (a megfigyelt személy arca és hangja) alapján azonosítja azt a felvételen vagy az élő videóban. De ugyanúgy lehet ezt ipari folyamatok során is zajos környezetben kamatoztatni, például oktatási feladatokra egy kohászatban, de egy plázában is ki lehet így szűrni a hangzavarban bárkit miről beszél. Az egészségügyben is sikerrel alkalmazható a beszédben korlátozott betegekkel való kommunikációt könnyítheti meg, de idegennyelvű előadók esetében is működik egy konferencián, hiszen az algoritmus több nyelvet is ismer és folyamatosan tanul és tanítható. A Microsoft új találmánya azért a ma piacon lévő »speech2text« megoldásokból is sokat merített, hiszen HTK, Kaldi és SRILM nyelvekkel is kompatibilis, de nyilván a Google Now és az Apple és a saját Cortana megoldásából is hasznosított a rendszer fejlesztése közben sokat.”
Az eredeti, teljes írást itt olvashatja el.
Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Bejelentkezés