AI Sözlüğü
ModelQuantization
Quantization nedir?
Bir modelin sayısal hassasiyetini düşürerek boyutunu küçültme.
32-bit hassasiyetli bir modeli 4-bit hassasiyete indirip ~8 kat küçültme. Doğruluk %1-3 düşer ama bellek/hız kazançları çok büyüktür. Llama 70B'yi normal bilgisayarda çalıştırmayı mümkün kılar (GGUF formatı).