O echipă de programatori de la o companie britanică specializată în inteligenţa artificială (AI) a antrenat "agenţi" autonomi într-un joc de tip multiplayer (la care participă mai mulţi utilizatori, n.r.), care au devenit atât de eficienţi, încât i-au învins pe utilizatorii umani şi au stabilit astfel o premieră mondială, informează AFP.
Această realizare i-a adus echipei de la DeepMind, filială a companiei-mamă ce deţine Google, Alphabet, un studiu publicat joi în prestigioasa revistă Science.
Până la această reuşită, computerele i-au învins pe oameni în jocuri, însă în cadrul unor confruntări faţă în faţă, în formatul "unu la unu": Deep Blue l-a învins pe Gari Kasparov la şah în 1997 şi AlphaGo, construit de Google, l-a învins pe marele maestru sud-coreean al jocului de go Lee Se-Dol în 2016.
Jocurile multiplayer sunt însă diferite, deoarece necesită o competenţă umană complexă: cooperare şi muncă în echipă, în medii complexe.
Programatorii de la DeepMind, coordonaţi de Max Jaderberg, au folosit o versiune modificată a celebrului joc "Quake III Arena", lansat pentru prima dată pe piaţă în 1999 şi care a rămas popular în universul pasionaţilor de Esport.
Modul selectat a fost "Capture the Flag" ("Capturarea steagului"). Jucătorii trebuiau să intre în posesia drapelului echipei adverse, protejându-l în acelaşi timp pe al lor. Acest lucru îi obligă să atace şi să se apere în acelaşi timp, fapt care necesită stabilirea unei strategii.
Agenţii AI s-au antrenat singuri la acest joc, apoi au înfruntat profesionişti umani angajaţi pentru a testa jocuri video.
"Chiar şi după 12 ore de practică, profesioniştii umani în testare nu reuşeau să câştige decât 25% dintre partidele jucate contra echipei agenţilor AI", au dezvăluit autorii studiului.
Performanţa agenţilor AI a rămas superioară chiar şi atunci când timpii lor de reacţie au fost încetiniţi pentru a rămâne la nivelul celor umani.
Fără utilizare militară
Pentru antrenarea agenţilor autonomi, programatorii au recurs la ceea ce se numeşte "învăţare prin consolidare".
"La început, ei nu ştiau absolut nimic şi acţionau într-o manieră complet aleatorie, se loveau de toate colţurile", a explicat Max Jaderberg pentru AFP.
Programatorii doar le-au trasat un obiectiv: capturarea steagului. Agenţii AI au trebuit să îşi dezvolte propriul sistem de recompensă internă pentru fiecare acţiune necesară obţinerii acelui rezultat.
O altă inovaţie a constat în antrenarea mai multor agenţi AI împreună, nu separat. Cercetătorii şi-au dat seama că agenţii progresau mult mai repede dacă lucrau în grup.
De asemenea, programatorii au inoculat agenţilor AI "două viteze de gândire", inspirându-se din titlul bestsellerului "Thinking Fast and Slow", publicat de Daniel Kahneman, laureatul premiului Nobel pentru economie pe anul 2002.
"O parte a agentului reacţionează foarte repede şi îşi actualizează propriile convingeri foarte repede, în timp ce o altă parte a agentului le actualizează mai lent. Aceste două tipuri de convingeri se influenţează reciproc şi modelează percepţia agentului asupra lumii", a explicat Max Jaderberg.
Cercetătorii din echipa DeepMind au preferat să nu facă niciun fel de comentariu atunci când au fost întrebaţi despre eventuale utilizări militare ale acestui tip de inteligenţă artificială.
DeepMind are drept principiu general declarat să nu colaboreze niciodată cu sectorul militar şi cu cel al supravegherii şi monitorizării. Cuvântul "trage" nu apare deloc în studiul publicat în revista Science (autorii au preferat să scrie că agenţii AI "îndreptau" un laser către adversarii lor).
În schimb, la nivel conceptual, echipa de programatori doreşte să poată să folosească aceste forme de inteligenţă artificială pentru a rezolva probleme ale lumii reale, a precizat Max Jaderberg.
AGERPRES