Számítógépes beszéd Google módra

2016. szeptember 12. 11:30

A kortárs mesterségesintelligencia-kutatás egyik élharcosa, a Google londoni DeepMindja go után, patkányagynyi MI előtt a komputer generálta beszédben is jelentős eredményeket ért el.

2016. szeptember 12. 11:30

A goban diadalmaskodó AlphaGo körül hírverés után világhírűvé vált, a Google által 2014-ben felvásárolt DeepMind egy másik területen, a számítógép által generált beszédben is komoly fejlődésen ment keresztül. A módszert WaveNet rendszerük szövegein tesztelték, emberek hallgatták, és megállapították, hogy egyre kisebb a modern komputerek és az emberi beszéd közti különbség.

A WaveNet-kutatáshoz közeli forrás szerint a rendszer abban különbözik a jelenlegi szöveg-beszéd (text-to-speech) megoldásoktól, hogy emberihang-felvételek helyett tényleges hanghullámok előállítására összpontosít, így próbálja összerakni a beszélt nyelvhez kapcsolódó hangokat.

A WaveNet ideghálóval elemez nyers hanghullámokat, és próbál modellezni valószínűségi mintázatokat. A rendkívül komplex rendszer másodpercenként legalább 16 ezer mintát kezel, azaz komoly adatmennyiséget hoz létre. Hanghullámok modellezésével képes az emberi hangot utánzó beszéd, vagy klasszikus zeneminták alapján rövid zongoradarabok létrehozására.

A kutatók mindenesetre megjegyezték, hogy a számítógépes beszédgenerálás kisebb érdeklődésre tart számot, mint a természetes nyelvfelismerés. Az utóbbi évek „mesterségesintelligencia-versenyfutásában” alig foglalkoztak vele, holott nagyon fontos szakterület.

„Az ember-számítógép interakció egyik régi célja, hogy gépekkel társalogjunk” – nyilatkozta a DeepMind kutatócsapata.
 

Összesen 0 komment

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi. Mielőtt hozzászólna, kérjük, olvassa el a kommentszabályzatot.
Sorrend:
Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!