Model: Mac Studio MQH73TU/A

M2 Max LLM
Performans Raporu

32GB RAM ve M2 Max çipsetli Mac Studio'nun yapay zeka ve LLM (Büyük Dil Modelleri) potansiyelini analiz ediyoruz. Sınırlar, hızlar ve alternatifler.

Bellek (RAM)

32 GB

Unified Memory (400GB/s)

İşlem Gücü

30-Core GPU

16-Core Neural Engine

M2 MAX

12 CPU 30 GPU 32GB RAM

Unified Memory Architecture (UMA) sayesinde GPU, RAM'in tamamına doğrudan erişebilir. Bu, VRAM limiti olan PC kartlarına göre büyük bir avantajdır.

Model Uyumluluk Laboratuvarı

32GB RAM hangi modeller için yeterli? Modelleri seçerek belleği simüle edin.

LLM Modeli Seçin

Kuantizasyon (Sıkıştırma) Seviyesi

Kuantizasyon, modelin boyutunu ve RAM kullanımını azaltırken hızını artırır. 4-bit genellikle kalite/performans için en iyi noktadır.

RAM Kullanımı

0 GB / 32 GB

macOS

Model

0 GB 16 GB 32 GB (Limit)

Tahmini Hız (Token/sn)

Saniyede üretilen kelime parçacığı.

Çalışma Durumu

Performans Karşılaştırması

M2 Max (30-Core) GPU, yaygın LLM modellerinde nasıl performans veriyor?

Token Üretim Hızı (Llama 3 8B @ Q4)

* Değerler ortalamadır. "t/s" (token/saniye) ne kadar yüksekse o kadar iyidir. İnsan okuma hızı ~5-10 t/s civarıdır.

Analiz Notları

✓

Küçük Modellerde Canavar

7B ve 13B (veya Llama 3 8B) boyutundaki modellerde M2 Max inanılmaz hızlıdır (50-70 t/s). Bu, gerçek zamanlı sohbetten çok daha hızlıdır.
!

Bant Genişliği Avantajı

400GB/s bellek bant genişliği, özellikle büyük modeller yüklenirken PC rakiplerine (DDR5 ~50-60GB/s) göre büyük avantaj sağlar. Modeli belleğe yükleme ve ilk tepki süresi çok kısadır.
i

32GB Darboğazı

M2 Max çipi çok güçlü olsa da, 32GB RAM kapasitesi, 70B gibi devasa modellerde sizi sınırlar. Çip işleyebilir, ancak RAM yetmediği için SSD'ye (Swap) taşma yapar ve hız 60 t/s'den 1-2 t/s'ye düşer.

Cluster & Ölçeklenebilirlik

Birden fazla Mac Studio'yu bağlayarak ne elde edersiniz?

Cluster Simülasyonu

Apple Silicon cihazlar llama.cpp (MPI) veya MLX kütüphaneleri ile ağ üzerinden bağlanabilir.

Toplam VRAM Kapasitesi 32 GB

Çalıştırılabilir En Büyük Model Mixtral 8x7B (Q4)

Tahmini Hız (70B Model) Çalışmaz (Swap)

Ağ Gecikmesi Etkisi Yok (Local)

Tek cihaz: Veri transferi 400GB/s bellek içinde gerçekleşir. En hızlı yöntemdir ancak bellek sınırlıdır.

Nasıl Yapılır?

Ethernet (tercihen 10GbE) üzerinden bağlanarak. `llama.cpp` MPI build'i kullanılır. Katmanlar (layers) cihazlara bölünür.

Ne İşe Yarar?

Hız artırmaz, Kapasite Artırır. Tek cihazda sığmayan dev modelleri (örn: Llama-3-70B Q4) çalıştırmanızı sağlar.

Dezavantajı

Ağ gecikmesi (Latency). İki cihaz arası veri transferi, RAM hızından çok daha yavaştır. Hız düşer ama model çalışır.

Rakip Analizi & Mini PC Alternatifleri

Aynı bütçe veya form faktöründe başka ne alınabilir?

Cihaz Türü	Örnek Model	VRAM / RAM	LLM Avantajı	Dezavantajı
Bu Cihaz	Mac Studio M2 Max	32GB (Unified)	Yüksek bellek bant genişliği, kolay kurulum, sessiz.	VRAM artırılamaz. CUDA desteği yok (Metal kullanılır).
High-End Mini PC	Intel NUC 13 / Minisforum (RTX 4070 Mobile)	8GB - 12GB VRAM	Tam CUDA desteği, Windows/Linux esnekliği.	Düşük VRAM. 13B üzeri modelleri GPU'da tam çalıştıramaz. Yavaş sistem RAM'ine düşer.
SFF Custom PC	ITX Kasa + RTX 3090 (2. El)	24GB VRAM	Fiyat/Performans Kralı. 24GB çok hızlı VRAM + CUDA.	Daha büyük kasa, yüksek güç tüketimi, parça toplama zahmeti.
Workstation PC	Dual RTX 3060 (12GB x2)	24GB Total VRAM	Ucuz yollu 24GB VRAM elde etme yöntemi.	Yazılım ayarı zordur (model split). Bant genişliği düşüktür.

Özet Değerlendirme

Eğer amacınız 7B ile 34B arası modelleri sessiz, kompakt ve verimli bir ortamda çalıştırmaksa, Mac Studio M2 Max (32GB) rakipsizdir. Piyasada 32GB VRAM sunan "hazır" bir ekran kartı yoktur (RTX 4090 bile 24GB'dır, A6000 gibi profesyonel kartlar çok pahalıdır). Ancak, 70B modelleri çalıştırmak istiyorsanız bu cihazın belleği yetersiz kalacaktır; 64GB veya 96GB versiyonlarına bakmanız gerekir.

M2 Max LLM Performans Raporu