Deep Blue, 1997’de satrançta Garry Kasparov’u yenmeden önce bile, masa oyunları yapay zekaların başarılarının temel bir ölçüsüydü. 2015’te AlphaGo, Go ustası Lee Sedol’u yendiğinde başka bir engel daha aşılmıştı. Bu oyunların her ikisi de nispeten net bir analitik kurallar dizisine sahip ve olasılık temelli yaklaşımlar, bu oyunların temelinde yatıyor.
Cicero, Diplomacy’de insan seviyesinde performans sergiliyor
Geliştirilen Cicero yapay zekası, webDiplomacy.net‘te Diplomacy’nin çevrimiçi bir sürümünü oynayarak eğitildi. Cicero zaman içerisinde oyunda ustalaşarak insan oyuncuların “ortalama puanının iki katından fazlasını” elde etmeyi başardı.
Meta, Cicero’yu oluşturmak için stratejik akıl yürütme (AlphaGo’ya benzer) ve doğal dil işleme (GPT-3’e benzer) için yapay zeka modellerini bir araya getirdi ve bunları tek bir aracıda topladı. Her oyun sırasında Cicero, oyun tahtasının durumunu, sohbet geçmişlerini ve diğer oyuncuların nasıl davranacağını analiz ederek ilerliyor. Cicero insan benzeri diyaloglar oluşturabildiği için diğer oyuncularla koordineli bir şekilde çalışabilir ve planını uyguluyor.
Meta, Cicero’nun doğal dil becerilerini, “kontrol edilebilir bir diyalog modeli” olarak tanımlıyor. GPT-3 gibi, Cicero da web’den elde edilen kütüphaneleri kullanıyor. Meta, Cicero’nun eğitimine 2,7 milyar parametreli BART benzeri bir dil modeliyle başladıklarını da belirtiyor.
Cicero, strateji içinde strateji geliştiriyor
Meta araştırmacılarının belirttiği üzere Cicero’nun yetenekleri ve stratejileri hayli detaylı. Aktarılanlara göre Cicero, oyunun ilerleyen bölümlerinde belirli bir oyuncunun desteğine ihtiyaç duyacağını anlayabiliyor ve o kişinin gözüne girmek için ayrı bir strateji oluşturuyor. Hatta o oyuncunun karşılaşabileceği riskleri ve fırsatları da fark edip pozisyon alabiliyor.
Cicero’nun geleceği iyi de olabilir kötü de
Daha geniş uygulamalara gelince, Meta, Cicero araştırmasının insanlar arasındaki “iletişim engellerini hafifletebileceğini” öne sürüyor. Veya eğitim alanlarında hatta oyunlardaki daha gerçekçi NPC’ler için kullanılabileceği belirtiliyor. Bu sayede oyuncunun motivasyonuna uyum sağlanabilir.
Aynı zamanda bu teknoloji, insanları manipüle etmek için kullanılabilir. Bu doğrultuda Meta, diğer araştırmacıların kendi kodunu “sorumlu bir şekilde” oluşturabileceklerini umuyor ve “bu yeni alandaki zehirli mesajları” tespit etmek ve kaldırmak için adımlar attığını söylüyor. Meta’nın buradaki “adımlar”dan kastı muhtemelen internet metinlerinden öğrenilen diyaloglar. Büyük dil modellerini internet veri tabanıyla oluşturmak bu gibi olumsuz riskleri içeriyor. Son olarak Meta’nın Cicero’nun nasıl çalıştığını açıklamak için bir web sitesi yayına aldı ve ayrıca Cicero’nun kodunu GitHub‘da açık kaynaklı hale getirdi.