Size son yıllarda okuduğum en matrak bilimsel makalelerden birini anlatayım. Konumuz tabii ki yapay zeka (YZ), özelde de büyük dil modelleri (BDM’ler); yani en ileri örnekleri ChatGPT, Gemini ve Claude adını taşıyan, her sorumuza akıllıca cevaplar vererek hayatımızı kolaylaştıran o harika ürünlerin ardındaki dev sinir ağları.
22 Temmuz tarihli çalışma, Claude’un üreticisi olan Anthropic şirketiyle bağlantılı bilim insanlarının imzasını taşıyor. Anthropic, “hizalama” problemine (yani günün birinde ortaya çıkacak süper zeki YZ’nin isteklerinin biz insanlarınkilerle aynı olmasının garantilenmeye çalışılmasına) en çok kafa yoran, bu konuda en ilginç araştırmaları yapan YZ kuruluşu. (Ben de bu yıl bu konulara eğilecektim; Boğaziçi Üniversitesi yönetimi Bilgisayar Mühendisliği Bölümü’nün ve Mühendislik Fakültesi Yönetim Kurulu’nun oy birliğiyle onayladığı bir senelik araştırma iznimi hukuksuz şekilde engellemeseydi tabii.) Anthropic ekiplerinin büyük BDM “beyin”lerinde farklı kavramların temsillerinin nasıl zuhur ettiğine, BDM’nin ne gibi durumlarda kendisini kullanıcılarını kandırmak zorunda “hissettiğine” filan dair şahane çalışmaları var. Bu son makale de BDM’lerini “damıtma” adı verilen teknikle eğitenleri bekleyen tehlikeler hakkında.
Kafasında canlanıyor
BDM üretiminin ilk aşaması, hiçbir şey bilmeyen (yani beynindeki bilgi rastgele atılmış sayılardan oluşan) bir sinir ağına devasa miktarda metin (kitaplar, tweet’ler, web siteleri, vs.) gösterip onu bu örneklerdeki kelime akışını öğreneceği, yani verilen kısmi bir metni bu külliyata benzeyecek şekilde uzatacak en uygun kelimeleri tahmin edebilir hale geleceği şekilde eğitmek. Bu sürecin sonunda BDM artık o metinleri yazmış olan insanların aklından geçen kavramları da “tanıyabilir” hale geliyor; yani bir pasajı okuyup devamını yazarken o konuyla ilgili düşünceler kafasında canlanıyor. Bu artık çok şey bilen ama zincirleri olmayan beyin, “ince ayar” adı verilen ikinci bir eğitim aşamasında (nasıl davranması gerektiğini, söz gelimi kullanıcıların sorularına nazik ve faydalı yanıtlar vermesini gösteren) soru-cevap örnekleriyle bir tur daha eğitiliyor; böylece insan içine çıkabilecek hale geliyor.
Sadece sayılar öğretilse de...
Örneğin o hep korkulan “insanlığı yok etme” niyeti bir kez bir BDM’de ortaya çıktıysa bu yöntemle masum bir eğitim sırasında yeni bir YZ’ye bulaştırılabilir. Bilim müthiş bir şey, değil mi?
Hiç yorum yok:
Yorum Gönder