Subscribe
Yerel LLM inference döngüsünü gösteren soyut görsel

Yerel LLM’lerde Inference Nedir? Token Tahmini ve Dizi Süreci

2 Views

Çoğu insan bir LLM’in “bir cevap yazdığını” düşünür. Bu tam doğru değil. Bir dil modeli daha basit, daha tuhaf ve daha güçlü bir şey yapar: Sonraki tokeni tahmin eder. Sonra bunu tekrar yapar. Ve tekrar. Bu tekrarlanan döngüye inference denir.

Inference’ı anlarsanız, her yerel LLM’in kalp atışını anlarsınız.

Öne Çıkanlar

  • Yerel LLM’ler cevabı bir kerede üretmez, token token inşa eder
  • 2026 benchmark’larında 20-50 token/sn hızı günlük kullanım için yeterli kabul ediliyor (Presenc AI)
  • Her üretilen token sonraki tahmin için diziyi değiştirir
  • Prompt, modelin devam ettireceği dizinin başlangıcıdır
  • Inference hızı donanım, model boyutu ve quantization ile doğrudan ilişkilidir

Inference, Modelin Çalışmasıdır

Yerel LLM çalıştırdığınızda genellikle inference yapıyorsunuz. Eğitim (training) pahalı ve büyük altyapı ister. Ollama, LM Studio veya llama.cpp gibi araçlarda model çalıştırdığınızda train edilmiş modeli yüklersiniz ve ona bir diziyi devam ettirmesini söylersiniz.

Model “hafızasında arama” yapmaz. Giriş dizisini işler ve sonraki gelmesi en muhtemel tokeni tahmin eder. Sonra ondan sonraki tokeni tahmin eder. Cevap adım adım büyür.

Çıkarım: Inference, train edilmiş bir model kullanarak çıktı üretme sürecidir.

Model Bir Diziyi Görür

Bir LLM promptunu insan cümlesi olarak almaz. Bir dizi olarak alır. Metin önce tokenlere dönüştürülür. Model bu diziyi okur ve “Bu dizi göz önüne alındığında, sonraki gelmesi en muhtemel veya en kullanışlı token hangisi?” sorusunu cevaplar.

Basit örnek:

  • Giriş: “The capital of France is”
  • Tahmin: “Paris”
  • Yeni dizi: “The capital of France is Paris”
  • Sonraki tahmin: “.”

İşte dizi bu şekilde büyür.

Çıkarım: Bir LLM token dizisini okur ve o dizideki sonraki tokeni tahmin eder.

Üretim, Tekrarlanan Tahmindir

LLM’lerin paragraf, kod veya özet yazabilmesi her şeyi bir seferde üretmelerinden değil, aynı tahmin döngüsünü çok kez tekrarlamalarından kaynaklanır.

Temel döngü:

  1. Giriş dizisiyle başla
  2. Modeli çalıştır
  3. Olası sonraki tokenler için skorlar al
  4. Bir sonraki tokeni seç
  5. O tokeni diziye ekle
  6. Modeli tekrar çalıştır
  7. Durma noktasına gelene kadar tekrarla

Model “Local” çıkarır, diziye eklenir. Sonra “LLMs” çıkarır. Her adım altında token token inşa edilmiştir.

Çıkarım: Üretim büyük bir yazma eylemi değil, tekrarlanan sonraki-token tahminidir.

Basit Bir Inference Örneği

Prompt: “The dog chased the”

Model olası sonraki tokenler için tahminler yapar:

  • Yüksek olasılık: ball, cat, squirrel
  • Düşük olasılık: democracy, refrigerator

Model insani muhakemeyle seçim yapmaz. Eğitim sırasında öğrenilen örüntülerden skorlar üretir. Sampling ayarları (temperature, top-p) hangi tokenin seçileceğini belirler.

2026 verilerine göre yerel modellerde 20 token/sn hızı konuşma için kullanılabilir seviyededir. 5 token/sn altı yavaş hissettirir.

Çıkarım: Model olası sonraki tokenleri tahmin eder, sonra üretim ayarları hangi tokenin seçildiğini belirler.

Dizi Sürekli Değişiyor

Her üretilen token bir sonraki girişin parçası olur. Model sadece orijinal prompta cevap vermez, aynı zamanda halihazırda ürettiği şeye de cevap verir.

Prompt: “Write a sentence about local AI:”

Model “Local” üretir → dizi güncellenir → “AI” üretir. Her adım o ana kadarki diziye bağlıdır. Erken tokenler tüm yanıtı şekillendirir.

Bu yüzden prompting önemlidir. Prompt, tüm üretim yolunun başlangıç dizisi olur.

Çıkarım: Her üretilen token diziyi değiştirir ve yeni dizi sonraki geleni şekillendirir.

Promptlar Neden Bu Kadar Güçlü?

Bir prompt geleneksel yazılım anlamında bir komut değil. Bir dizinin başlangıcıdır.

“Explain this like I am five.” derseniz modele belirli bir tür devamı güçlü şekilde öneren bir dizi verirsiniz. “Respond as a senior Linux systems engineer.” derseniz diziyi teknik stile yönlendirirsiniz.

Zayıf prompt: “Tell me about models.”
Daha iyi prompt: “Explain what local LLM model weights are for a beginner. Use short sections, one analogy, and a final takeaway.”

Daha iyi prompt, modelin devam ettirmesi için daha net bir dizi sağlar.

Çıkarım: Prompting işe yarıyor çünkü prompt, modelin devam ettirmeye çalıştığı diziyi şekillendiriyor.

Inference’ın İki Büyük Aşaması Var

Inference genellikle iki aşamadan oluşur:

Prompt Processing (Prompt İşleme): Model giriş promptunu okur. Uzun promptlar daha fazla zaman alır. Bu aşamaya bazen “prefill” denir. Model promptandan bilgiyle iç durumunu doldurur.

Token Generation (Token Üretimi): Prompt işlendikten sonra yeni tokenler üretilmeye başlar. Bu, ekranda streaming olarak gördüğünüz kısımdır. Her yeni token bir forward pass daha gerektirir. KV cache bu süreci hızlandırır.

Yerel LLM performansı iki farklı hisse sahiptir: yanıt vermeye başladığında hız ve yanıt başladıktan sonra stream hızı.

Çıkarım: Inference önce promptu okumayı, sonra yeni tokenleri birer birer üretmeyi içerir.

Yerel LLM’ler Neden Yavaş Hissettiriyor?

Yerel LLM hızı genellikle saniyede token (tokens per second) olarak ölçülür.

2026 verilerine göre:

  • 5 token/sn → yavaş hissettirir
  • 20 token/sn → kullanılabilir hissettirir
  • 50 token/sn → hızlı hissettirir

Hız model boyutu, quantization, CPU/GPU, RAM, VRAM, context length ve memory bandwidth gibi faktörlere bağlıdır. Daha büyük model her token başına daha fazla işlem gerektirir.

Yerel inference, donanımın modelle buluştuğu yerdir. Her token ortaya çıktığında makine matematik yapar.

Çıkarım: Yerel LLM hızı, donanımınızın inference döngüsünü ne kadar hızlı çalıştırabildiğine bağlıdır.

Daha Büyük Modeller Token Başına Daha Pahalı

7B ve 70B model aynı miktarda iş gerektirmez. Daha fazla parametre modelin daha fazla örüntü temsil etmesini sağlar ama aynı zamanda inference sırasında daha fazla işlem ve bellek hareketi demek.

Daha büyük modeller:

  • Daha fazla RAM veya VRAM’e ihtiyaç duyar
  • Daha yavaş başlar
  • Tokenleri daha yavaş üretir
  • Daha güçlü donanım gerektirir

Hızlı çalışan daha küçük model günlük iş akışları için daha kullanışlı olabilir. 2026’da 7B-30B modeller için 30+ token/sn hızı üretim ajanları için yeterli kabul ediliyor.

Çıkarım: Daha büyük modeller daha güçlü olabilir, ama yerel inference onların maliyetini görünür kılar.

Diziler Context Limitlerini Açıklar

Bir model bir seferde yalnızca belirli miktarda dizi işleyebilir. Bu limite context window denir. 8k context window yaklaşık 8.000 tokeni bir seferde işleyebilir.

Modelin tahmini mevcut diziye bağlıdır. Önemli bilgi context window’un dışındaysa model doğrudan kullanamaz. Uzun sohbetler veya çok uzun belgeler sorun yaratabilir.

Inference sırasında model her şeyi sonsuza kadar hatırlamaz. Mevcut context’teki tokenleri kullanır.

Çıkarım: Context, modelin şu anda kullanabildiği dizidir. Sınırsız bellek değildir.

Stop Tokenlar Neden Önemli?

Model ne zaman duracağını “bilmez”. Üretim kurallar nedeniyle durur. Yaygın durma koşulları:

  • Sequence-end token çıkarılması
  • Max token limitine ulaşılması
  • Stop string görünmesi
  • Kullanıcı üretimi kesmesi

Runtime ayarları (max_tokens, stop sequences) üretimin ne zaman biteceğini kontrol eder. Yanlış ayarlar saçmalama, tekrar veya erken durma gibi sorunlara yol açabilir.

Çıkarım: Üretim, runtime veya model çıktısı bir durma koşuluna ulaştığı için durur.

7 Adımlı Inference Döngüsü

Inference’ı hatırlamanın en basit yolu şu döngüdür:

  1. Metin girişi → Prompt yazarsınız
  2. Tokenizasyon → Metin modelin okuyabileceği tokenlere dönüşür
  3. Dizi işleme → Model mevcut token dizisini okur
  4. Sonraki-token skorlama → Model olası sonraki tokenler için skorlar üretir
  5. Kod çözme → Bir yöntem bu skorlardan bir token seçer
  6. Dizi güncelleme → Seçilen token diziye eklenir
  7. Tekrarla veya dur → Model durma koşuluna ulaşana kadar devam eder

Her chatbot yanıtı, kod tamamlama ve yerel agent çıktısı bu temel üzerine inşa edilir.

Çıkarım: Metin üretimi bir döngüdür: tokenize et, diziyi işle, sonraki tokenleri skorla, birini seç, ekle, tekrarla.

Seride Neden Bu Kadar Önemli Bir Makale?

Local LLM 101’deki her şey buna dayanıyor:

  • Token’lar önemli çünkü inference token dizileri üzerinde çalışır
  • Context window’lar önemli çünkü modelin ne kadar dizi kullanabileceğini sınırlar
  • Ağırlıklar önemli çünkü sonraki-token tahminlerini şekillendirir
  • Sampling önemli çünkü sonraki tokenin nasıl seçildiğini kontrol eder
  • KV cache önemli çünkü tekrarlanan üretimi daha hızlı yapar

Inference merkezi döngüdür. Onu anlarsanız serinin geri kalanının bağlayacağı bir yer edinmiş olursunuz.

Çıkarım: Inference, tokenları, context’i, ağırlıkları, sampling’i ve transformer’ları birbirine bağlayan temeldir.

Sık Sorulan Sorular

Inference ile training arasındaki fark nedir?
Training modelin ağırlıklarını güncellerken, inference train edilmiş ağırlıkları kullanarak sadece tahmin yapar. Yerel kullanıcılarda genellikle sadece inference çalıştırılır.

Neden her token ayrı ayrı üretilir?
Model mimarisi gereği bir seferde tek token tahmini yapar. Bu yapı paralel işlemeyi zorlaştırır ama KV cache gibi tekniklerle hızlandırılır.

Prompt neden bu kadar etkili?
Prompt, modelin devam ettirmeye çalıştığı dizinin başlangıcıdır. İyi bir prompt sonraki tokenlerin olasılığını istenen yönde yükseltir.

Yerel LLM’lerde hızı ne belirler?
Model boyutu, quantization seviyesi, donanım (GPU/CPU/RAM), context uzunluğu ve runtime ayarları hızı doğrudan etkiler. 2026’da 20+ token/sn günlük kullanım için yeterli kabul ediliyor.

Context window dolunca ne olur?
Model eski tokenleri “unutur”. İlgili bilgi context dışında kalırsa modele ulaşamaz. Bu yüzden uzun belgelerde chunking veya RAG kullanılır.

Sonuç ve Sonraki Adım

Yerel LLM yanıtı sihir değil. Tekrarlanan bir dizi sürecidir. Promptu verirsiniz, metin tokenlere dönüşür, model diziyi işler, olası sonraki tokenleri skorlar, birini seçer ve döngü tekrarlanır.

Inference’ı anlamak, tokenları, context’i ve hızı anlamanın temelidir.

Sonraki makalede tokenların ve tokenizerların detayına ineceğiz: 02 – Tokens, Tokenizers ve Context Window

Şimdi Ollama veya LM Studio‘da bir model çalıştırın ve inference döngüsünü kendi gözlerinizle izleyin. Hangi tokenlerin üretildiğini görmek için verbose mod veya logları açabilirsiniz.