Subscribe
Yerel LLM inference sürecini gösteren soyut illüstrasyon, token akışı ve sinir ağı görselleştirmesi, koyu arka plan üzerinde mavi ve yeşil vurgular

Local LLM Nedir? Token Tahmini ve Yerel Yapay Zeka Temelleri (2026)

4 Views

ChatGPT veya Claude gibi bulut tabanlı yapay zeka araçlarını kullanırken çoğu insan “model düşünüyor” veya “yazıyor” der. Gerçekte ise olan şey çok daha basit ve tekrarlanabilir bir süreçtir: token tahmini.

Bu makalede, yerel LLM’lerin (Local Large Language Models) nasıl çalıştığını, tokenizasyon ve inference döngüsünü temel kavramlarla inceleyeceğiz. Araç önerilerinden önce ilk prensipleri anlamak, ileride Ollama, LM Studio veya llama.cpp gibi sistemleri çok daha bilinçli kullanmanızı sağlar.

LLM’ler Gerçekte Nasıl Çalışır?

Tüm dil modellerinin arkasındaki temel süreç şöyledir:

Metin Girişi → Tokenizasyon → Sinir Ağı → Sonraki Token Tahmini → Çıktı → Tekrarla

Token Tahmini Döngüsü (Adım Adım)

  1. Kullanıcı bir prompt yazar
  2. Tokenizer metni tokenlere dönüştürür
  3. Model token dizisini okur
  4. Model sonraki token için olasılıkları hesaplar
  5. Kod çözme yöntemi (sampling) sonraki tokeni seçer
  6. Token diziye eklenir
  7. Tamamlanana kadar süreç tekrarlanır

“İnsanlar bir modelin ‘düşündüğünü’, ‘yazdığını’ veya ‘akıl yürüttüğünü’ söylediğinde, gerçek süreç hala token tahmininin çok kez tekrarlanmasıdır. Bu onu etkileyicilikten yoksun kılmaz. Anlaşılabilir kılar.”

Bu döngüyü anlamak, “neden uzun promptlar yavaşlıyor”, “neden bazı modeller daha yaratıcı cevap veriyor” gibi soruların cevabını verir.

Yerel LLM Nedir?

Tanım

Yerel LLM, donanımınızı kontrol ettiğiniz bir sunucuda çalışan büyük bir dil modelidir:

  • Laptop, masaüstü veya gaming PC
  • MacBook, Linux iş istasyonu
  • Ev sunucusu veya AI süper bilgisayarı

Bulut AI ile Yerel AI Arasındaki Temel Fark

Özellik Bulut AI Yerel AI
Erişim şekli Eriştiğiniz bir şey İşlettiğiniz bir şey
Gizlilik Veriler üçüncü taraf sunucularda Veriler tamamen sizin kontrolünüzde
Çevrimdışı erişim İnternet gerektirir İnternet olmadan çalışır
Maliyet Kullanım başına veya abonelik Düşük marjinal maliyet
Model seçimi Sağlayıcının sunduğu modeller İstediğiniz modeli seçersiniz

Bulut avantajı: Daha güçlü ham yetenek (en iyi modeller genellikle bulutta kalır).

Yerel avantajları: Gizlilik, kontrol, çevrimdışı erişim, deneyim özgürlüğü, model seçimi, iş akışı sahipliği ve daha derin teknik anlayış.

“Sadece bir AI ürünü kullanmıyorsunuz. AI sistemlerinin gerçekten nasıl çalıştığını öğreniyorsunuz.”

En Yaygın Başlangıç Hatası

Birçok kişi Local LLM dünyasına “Hangi modeli indirmeliyim?”, “Ollama mı LM Studio mu?” veya “Q4 ne anlama geliyor?” gibi sorularla girer. Bu yaklaşım temeli atlamaya neden olur.

Doğru Öğrenme Sıralaması

Araçlar ve modellerden önce şu sırayı izleyin:

  1. Token’lar → context length şikayetlerinden önce
  2. Üretim (Generation) → temperature tuning’den önce
  3. Ağırlıklar/Parametreler → daha büyük modellerin peşinde koşmadan önce
  4. Inference → hız optimizasyonundan önce

“Önce temel mekanikleri anlarsanız, araç ve model seçimleri daha sonra çok daha kolay olacak.”

Yerel Çalıştırmak Neden Öğrenmeyi Kolaylaştırır?

Modelleri yerel olarak çalıştırdığınızda, bulutun gizlediği kavramları görürsünüz:

  • Token sayısının neden önemli olduğu
  • Uzun promptların neden yavaşlattığı
  • Küçük modellerin neden farklı cevap verdiği
  • Kantize edilmiş modellerin neden tüketici donanımına sığdığı
  • Temperature’ın neden yaratıcılığı değiştirdiği
  • Context’in neden bellek ile aynı olmadığı
  • VRAM’in neden önemli olduğu
  • Bazı modellerin neden spesifik sohbet şablonlarına ihtiyaç duyduğu

“Yerel LLM’ler AI’nın gizli parçalarını görünür kılar ve bu da onları öğrenme için bu kadar kullanışlı kılan şeydir.”

Temel Terminoloji Referansı

Kavram İlgili Anlayış
Token’lar Metin → token dönüşümü, neden saymanın önemli olduğu
Diziler (Sequences) Giriş işleme, context oluşturma
Ağırlıklar/Parametreler Modelin “bildikleri”, boyut sonuçları
Context Bellek ile aynı değil, pencere sınırları
Inference Tahmin süreci, üretim döngüsü
Kantizasyon (Quantization) Modellerin tüketici donanımına nasıl sığdığı
KV Cache Üretim sırasında bellek optimizasyonu
Sampling Temperature, yaratıcılık, rastgelelik
Transformers Sürece güç veren mimari
Self-Attention Modelin ilişkileri nasıl anladığı

Bu kavramları anlamadan “hangi modeli indireyim” sorusuna cevap aramak, arabanın motorunu bilmeden vites değiştirmeye çalışmak gibidir.

Tam Inference Döngüsü (Teknik Bakış)

Kullanıcı Girişi → Tokenize Et → Diziyi İşle → Olasılıkları Hesapla 
→ Softmax (skorları olasılıklara) → Sonraki Tokeni Örnekla → 
Diziye Ekle → Tekrarla

Temel Bileşenler

  • Tokenizer: Metni tokenlere dönüştürür
  • Model Ağırlıkları: Tahmini şekillendirir
  • Softmax: Skorları olasılıklara dönüştürür
  • Sampling Yöntemi: Sonraki tokeni seçer
  • Transformer Katmanları: Sürece güç verir
  • Attention Mekanizması: Context ilişkilerini anlar

Bu döngüyü anlamak, her yerel LLM’in “kalp atışını” anlamak demektir.

Ana Çıkarımlar

  1. LLM’ler bir dizideki sonraki tokeni tekrar tekrar tahmin ederek metin üretir.
  2. Bir yerel LLM bilgisayarınızdaki bir sohbet robotundan ibaret değildir — model, runtime, tokenizer, bellek sistemi ve inference döngüsü kontrolünüz altında çalışır.
  3. Inference’ı anlamak = her yerel LLM’in kalp atışını anlamak.
  4. Hedef makine öğrenimi araştırmacısı olmak değil, pratik anlayış kazanmaktır.
  5. Döngüyü anladığınızda, GGUF formatları, kantizasyon, context pencereleri, chat şablonları ve model optimizasyonu gibi konular çok daha anlamlı hale gelir.

Sonuç

Local LLM yolculuğuna araç ve model seçimiyle başlamak yerine, token tahmini ve inference döngüsünü anlamakla başlamak çok daha verimli bir yoldur. Bu temel, ileride Ollama, LM Studio, llama.cpp veya vLLM gibi sistemleri kullanırken çok daha bilinçli kararlar almanızı sağlar.

Başlamak için: Önce token tahmini döngüsünü kavrayın, ardından Ollama ile küçük bir modeli yerel çalıştırmayı deneyin. Mekanizmayı görünce geri kalan her şey yerine oturuyor.