Büyük Dil Modelleri Nasıl Çalışır? Teknik Olmayan Bir Bakış

ChatGPT, Claude ve Gemini'nin arkasındaki teknolojiyi, transformer mimarisinden token'lara kadar anlaşılır bir dille açıklıyoruz.

Sihir Değil, Matematik

LLM’ler bir sonraki kelimeyi tahmin eden istatistiksel makinelerdir. Ama bu basit tanım, muazzam karmaşıklığı gizliyor.

Token Nedir?

LLM’ler kelimelerle değil, token’larla çalışır:

  • “merhaba” → 1 token
  • “selamünaleyküm” → 3-4 token
  • Emoji’ler → genelde 1-2 token

Transformer Mimarisi

2017’de Google’ın “Attention is All You Need” makalesi her şeyi değiştirdi.

Attention mekanizması: Model, bir cümledeki her kelimenin diğer kelimelerle olan ilişkisini ağırlıklandırır.

“Kedi minderin üstünde uyuyordu, o çok yorgundu.”

İnsan gibi, model de “o”nun “kedi”ye atıfta bulunduğunu anlar.

Eğitim Süreci

  1. Pre-training: İnternet’ten milyarlarca metin
  2. Fine-tuning: Belirli görevler için ayarlama
  3. RLHF: İnsan geri bildirimiyle iyileştirme

Sınırlamalar

  • Hallüsinasyon yaparlar
  • Güncel bilgileri bilmezler (cutoff date)
  • Matematiksel mantıkta zayıftırlar

Sonuç

LLM’ler mucizevi değil, mühendislik harikası. Sınırlamalarını bilerek kullanmak gerek.