Sihir Değil, Matematik
LLM’ler bir sonraki kelimeyi tahmin eden istatistiksel makinelerdir. Ama bu basit tanım, muazzam karmaşıklığı gizliyor.
Token Nedir?
LLM’ler kelimelerle değil, token’larla çalışır:
- “merhaba” → 1 token
- “selamünaleyküm” → 3-4 token
- Emoji’ler → genelde 1-2 token
Transformer Mimarisi
2017’de Google’ın “Attention is All You Need” makalesi her şeyi değiştirdi.
Attention mekanizması: Model, bir cümledeki her kelimenin diğer kelimelerle olan ilişkisini ağırlıklandırır.
“Kedi minderin üstünde uyuyordu, o çok yorgundu.”
İnsan gibi, model de “o”nun “kedi”ye atıfta bulunduğunu anlar.
Eğitim Süreci
- Pre-training: İnternet’ten milyarlarca metin
- Fine-tuning: Belirli görevler için ayarlama
- RLHF: İnsan geri bildirimiyle iyileştirme
Sınırlamalar
- Hallüsinasyon yaparlar
- Güncel bilgileri bilmezler (cutoff date)
- Matematiksel mantıkta zayıftırlar
Sonuç
LLM’ler mucizevi değil, mühendislik harikası. Sınırlamalarını bilerek kullanmak gerek.