Újabb mesterségesintelligencia-teszt: a világ értelmezése

2016. január 28. 15:30
Masszív képi adatbázis alapján tanulják meg algoritmusok, hogy egy jelenetben többet lássanak egy-egy tárgy színénél és formájánál. Értelmezniük kell a képet.

A Stanford Egyetem Mesterséges Intelligencia Laboratóriumában fejlesztett Vizuális Genom nevű képadatbázis rendeltetése, hogy számítógépek rajta keresztül tanuljanak meg képeket értelmezni, jöjjenek rá, mi történik a képen. Ha a képeket valamelyest megértik, akkor a való világból, a valóságból is többet felfognak.

A Vizuális Genom képeit gazdagabban felcímkézték, mint a labort vezető Fei-Fei Li által korábban fejlesztett ImageNet adatbázist. Az ImageNet 1 milliónál több, tartalmuk szerint felcímkézett kép gyűjteménye.

Li szerint a mesterségesintelligencia-kutatás szempontjából kulcsfontosságú, hogy a számítógépeknek megtanítsanak képeket elemezni és értelmezni. A Vizuális Genom képein, jelenetein tanuló algoritmusok elvileg lehetővé teszik, hogy például robotok vagy önvezető autók pontosan lássák a környező világot, és értelmet adjanak annak, amit látnak.

Ezekkel az algoritmusokkal a hatékonyabb kommunikáció és az is megtanítható számítógépeknek, hogy egyáltalán hogyan kommunikáljanak.

„A gépi látás legnehezebben megoldható kérdéseire összpontosítunk, hogy mi is köti össze valójában az érzékelést a gondolkodással. Nem csak pixeladatokról, színük, árnyalataik, formájuk és hasonlók értelmezéséről, hanem a háromdimenziós és szemantikus képi világ teljesebb megértéséről van szó” – magyarázza Li.
 

Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Bejelentkezés