Büyük Dil Modelleri Nasıl Çalışır? Teknik Olmayan Bir Bakış

Pre-training: İnternet’ten milyarlarca metin
Fine-tuning: Belirli görevler için ayarlama
RLHF: İnsan geri bildirimiyle iyileştirme

Sihir Değil, Matematik

LLM’ler bir sonraki kelimeyi tahmin eden istatistiksel makinelerdir. Ama bu basit tanım, muazzam karmaşıklığı gizliyor.

LLM’ler kelimelerle değil, token’larla çalışır:

2017’de Google’ın “Attention is All You Need” makalesi her şeyi değiştirdi.

Attention mekanizması: Model, bir cümledeki her kelimenin diğer kelimelerle olan ilişkisini ağırlıklandırır.

“Kedi minderin üstünde uyuyordu, o çok yorgundu.”

İnsan gibi, model de “o”nun “kedi”ye atıfta bulunduğunu anlar.

LLM’ler mucizevi değil, mühendislik harikası. Sınırlamalarını bilerek kullanmak gerek.