Isten nyugtassa, Mester!
Jó eséllyel úgy vélné, túl sok minden nem változott, csak kevesebb helyen lehet sétálni, és több helyen biliárdozni.
Masszív képi adatbázis alapján tanulják meg algoritmusok, hogy egy jelenetben többet lássanak egy-egy tárgy színénél és formájánál. Értelmezniük kell a képet.
A Stanford Egyetem Mesterséges Intelligencia Laboratóriumában fejlesztett Vizuális Genom nevű képadatbázis rendeltetése, hogy számítógépek rajta keresztül tanuljanak meg képeket értelmezni, jöjjenek rá, mi történik a képen. Ha a képeket valamelyest megértik, akkor a való világból, a valóságból is többet felfognak.
A Vizuális Genom képeit gazdagabban felcímkézték, mint a labort vezető Fei-Fei Li által korábban fejlesztett ImageNet adatbázist. Az ImageNet 1 milliónál több, tartalmuk szerint felcímkézett kép gyűjteménye.
Li szerint a mesterségesintelligencia-kutatás szempontjából kulcsfontosságú, hogy a számítógépeknek megtanítsanak képeket elemezni és értelmezni. A Vizuális Genom képein, jelenetein tanuló algoritmusok elvileg lehetővé teszik, hogy például robotok vagy önvezető autók pontosan lássák a környező világot, és értelmet adjanak annak, amit látnak.
Ezekkel az algoritmusokkal a hatékonyabb kommunikáció és az is megtanítható számítógépeknek, hogy egyáltalán hogyan kommunikáljanak.
„A gépi látás legnehezebben megoldható kérdéseire összpontosítunk, hogy mi is köti össze valójában az érzékelést a gondolkodással. Nem csak pixeladatokról, színük, árnyalataik, formájuk és hasonlók értelmezéséről, hanem a háromdimenziós és szemantikus képi világ teljesebb megértéséről van szó” – magyarázza Li.