AlphaGo 4-1-re verte Lee Szedolt

Diadalmas mesterséges intelligencia

2016. március 16. 9:00
Veszített a go-bajnok, nyert a gép. A videojátékok világa lehet a program soron következő megmérettetési terepe, majd jöhetnek az okostelefonok, valóság a játék után. De emberfeletti-e AlphaGo, vagy képes hibázni is?

A Google által 2014 elején felvásárolt és a cég más részlegétől viszonylag elkülönített londoni DeepMind szöuli go-tornáján a 170 GPU-kártya és 1200 szabvány processzor (CPU) hálózatán, tehát több számítógépen futó, adatbázisaihoz masszív internetkapcsolatot használó AlphaGo megnyerte a befejező játszmát is, és végül fölényesen, 4-1-re verte a világ legjobbjának tartott dél-koreai Lee Szedolt. Az ötjátszmás go-meccs korábban, a harmadik játszmában eldőlt, mivel az első hármat zsinórban vitte a program. Ennek ellenére mind az ötöt le kellett játszaniuk.

A 37. lépés

A mesterségesintelligencia-algoritmus diadala mégsem teljes, mert Szedol a negyedik játszmában bizonyította, hogy ellenfele nem emberfeletti, hanem emberi szinten játszik, és egy topkategóriás humán versenyzőnek igenis lehetnek esélyei ellene. A befejező játszma szoros végkifejlete szintén ezt az állítást igazolja. AlphaGo nem verhetetlen, és van még hova fejlődnie.

Egy kicsit azért mégis az, legalábbis a második játszma egyik lépése erre utal. Mindenki más számára értelmezhetetlent lépett, és tudta is, hogy emberi szemmel lehetetlent tesz, de megtette, mert sokkal több opciót lát át, mint az emberi szem valaha is.

Szakavatott kommentátorok is azt hitték, hogy tévedett, a teremből kisiető döbbent Szedolnak pedig negyedóra kellett a válaszlépéshez.

„Nem emberi lépés, soha nem láttam embert, aki ezt lépte. Gyönyörű, annyira gyönyörű” – értékelt az AlphaGo által januárban tönkrevert háromszoros Európa-bajnok Fan Hui.
A játszmát természetesen ezzel a (37.) lépéssel nyerte meg.

Az AlphaGo fejlesztését vezető és a helyszínen tartózkodó David Silver sem értette, később viszont alaposan utánanézett.

Hogyan tanult?

Először megtanították a programnak, hogy mély ideghálót használva játsszon. Az idegháló az agyban lévő idegsejtek hálózatát utánozza, ugyanezzel a technológiával azonosíthatók Facebookra feltöltött fényképek, és ismerhetők fel hangutasítások androidos mobilokon. Ha például elegendő tigrisképet kap, megtanul tigriseket azonosítani. Ha beletáplálunk sokmillió go-lépést, elsajátítja a sakknál exponenciálisan bonyolultabb játékot.

Silver és társai egy lépéssel továbbmentek, és egy másik tanulótechnológiát, az úgynevezett megerősítéses tanulást is használták. AlphaGo kicsit eltérő változatai játszottak egymás ellen, és a rendszer folyamatosan figyelte, hogy melyik lépéssel érhető el a legjobb eredmény. Többmillió játszma közben a program magától tanult meg stratégiákat kidolgozni, és egyre csak javult.A fejlesztők azonban még előrébb mentek.

Az AlphaGo kontra AlphaGo meccsek lépéseit egy másik ideghálóba táplálva továbbfinomították a rendszert. Az idegháló megtanította neki, hogy minden lépés potenciális következményeit lássa előre. A gyakorlás és a lehetséges lépéskimeneteket hagyományosabban és szisztematikusabban vizsgáló „fa-keresés” kombinációjával egy-egy lépés győzelmi esélyeit is felbecsülte. Tehát nemcsak emberek, hanem saját maga különféle változatainak a lépéseiből is tanult.

Ezért volt képes mindenkit meghökkenteni és Szedolt negyedórás töprengésre késztetni.
Silver a 37. lépéshez vezető számításoknak nézett utána, és kiderült: egy a tízezerhez volt a valószínűsége. Egyetlen profi go-játékos sem tenné meg, de AlphaGo másként látta, mert felmérte, hogy nagy valószínűséggel sikeres.

„Magától jött rá elemzéssel és önelemzéssel” – nyilatkozta Silver a talán emberfelettinek, de mindenképpen nem emberinek nevezhető történelmi lépésről.

A negyedik játszma

A meccs tanulsága, hogy egy program le tudja győzni a legjobb go-játékost. Ettől azonban a gépek még megbuknak a nyolcadikos matek-vizsgán, nem képesek úgy beszélgetni, mint az ember, és a józanész-bölcseletekben – zöld a fű, kék az ég stb. – szintén vannak hiányosságaik.

A negyedik játszma ezt bizonyította.

„Annak ellenére, hogy AlphaGo nagyon masszív program, nem nevezném tökéletesnek. Az emberrel összehasonlítva, mások a lépései és időnként felette áll. De szerintem vannak gyenge pontjai” – nyilatkozta Szedol a negyedik megmérettetés előtt.

A bajnok különösen a második játszmáért hibáztatta magát: több lehetősége adódott, de mégsem élt velük. A másodikhoz hasonlóan alakuló negyedikben már igen, pedig a végére kiszaladt az időből (ami után 60 másodpercen belül kell lépni). Ráadásul pontosan az időtényező miatt AlphaGo állt jobban – egy ideghálója csak és kizárólag az időt figyeli –, de a 78. lépésben Szedol annyira meglepőt húzott, hogy a gép esélyei drasztikusan csökkentek. Később, nem 0, hanem 20 százalék alatti nyerési sansznál fel is adta.

Az IBM Deep Blue sakkprogram Gary Kaszparov feletti 1997-es diadalára rímelő esemény annyiban más, hogy a go magasabb szintű játék, és ellentétben az IBM-mel, a Google sokkal több anyagot tett közkinccsé a fejlesztésről. Olyan sokat, hogy a GitHub-on valaki kísérletet tett az algoritmus lemásolására.

Merre tovább?

Az eredmény magáért beszél: a szoftver legyőzte az egyik legmagasabb szintű szellemi játék csúcsversenyzőjét, aki egész eddigi életét a gonak szentelte. MI-kutatók nyilván felbátorodnak a példán, és újabb – akár sporton kívüli – területeken szintén számíthatunk hasonló fejlesztésekre, eredményekre.

Egyelőre nem tudni, mi lesz AlphaGo sorsa. Demis Hassabis, a DeepMind ügyvezető igazgatója következő mérföldkőként a Blizzard Dél-Koreában máig rendkívül népszerű klasszikus StarCraftjához hasonló stratégiai játékokra utalt egy interjúban. Cége mesterséges intelligenciákat szimulálhat játékkörnyezetekben, hosszútávon viszont valódi élethelyzetekre szeretnék alkalmazni az algoritmusokat. Olyan döntésekre gondol, amelyekben az emberi döntéshozás sokat profitálhat a gyorsabb gépi tanulásból és hatékonyabb adatfeldolgozásból. Például okostelefonos asszisztensként kezdheti, valamivel később pedig az egészségügy következhet.

Az IBM Watsonja nyomdokába léphet. Őt most éppen látni tanítják.

Végül a robotika jöhet, bár Hassabis még nem töpreng rajta. Önvezető autókat, idős személyeket segítő takarítógépeket hoz fel példaként, de AlphaGo egyelőre nem tart ott. Hiába keltette fel a média és a világ figyelmét, a jelenlegi lehetséges felhasználási területek száma igen csekély.
 

Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Bejelentkezés