Számítógépes beszéd Google módra

2016. szeptember 12. 11:30
A kortárs mesterségesintelligencia-kutatás egyik élharcosa, a Google londoni DeepMindja go után, patkányagynyi MI előtt a komputer generálta beszédben is jelentős eredményeket ért el.

A goban diadalmaskodó AlphaGo körül hírverés után világhírűvé vált, a Google által 2014-ben felvásárolt DeepMind egy másik területen, a számítógép által generált beszédben is komoly fejlődésen ment keresztül. A módszert WaveNet rendszerük szövegein tesztelték, emberek hallgatták, és megállapították, hogy egyre kisebb a modern komputerek és az emberi beszéd közti különbség.

A WaveNet-kutatáshoz közeli forrás szerint a rendszer abban különbözik a jelenlegi szöveg-beszéd (text-to-speech) megoldásoktól, hogy emberihang-felvételek helyett tényleges hanghullámok előállítására összpontosít, így próbálja összerakni a beszélt nyelvhez kapcsolódó hangokat.

A WaveNet ideghálóval elemez nyers hanghullámokat, és próbál modellezni valószínűségi mintázatokat. A rendkívül komplex rendszer másodpercenként legalább 16 ezer mintát kezel, azaz komoly adatmennyiséget hoz létre. Hanghullámok modellezésével képes az emberi hangot utánzó beszéd, vagy klasszikus zeneminták alapján rövid zongoradarabok létrehozására.

A kutatók mindenesetre megjegyezték, hogy a számítógépes beszédgenerálás kisebb érdeklődésre tart számot, mint a természetes nyelvfelismerés. Az utóbbi évek „mesterségesintelligencia-versenyfutásában” alig foglalkoztak vele, holott nagyon fontos szakterület.

„Az ember-számítógép interakció egyik régi célja, hogy gépekkel társalogjunk” – nyilatkozta a DeepMind kutatócsapata.
 

Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Bejelentkezés