برگ برنده گوگل که فقط یک گیگابایت حافظه رم می‌خواهد

مدل هوش مصنوعی Gemma 4 QAT گوگل معرفی شد

شهر سخت افزار
نویسنده: جواد نیک قلم
دوشنبه 18 خرداد 1405
Gemma 4
Gemma 4 در قالب چندین نسخه مختلف منتشر شده است. یکی از مهم‌ترین دستاوردها این است که نسخه E2B این مدل اکنون می‌تواند با کمتر از 1GB حافظه رم اجرا شود

شرکت Google DeepMind نسخه‌های جدیدی از خانواده مدل‌های Gemma 4 را معرفی کرده که بسیار کم حجم بوده و حدود یک گیگابایت حافظه رم را اشغال می‌کند تا بتوانید یک مدل هوش مصنوعی کارآمد آفلاین روی لپ‌تاپ یا گوشی موبایل خود داشته باشید.

این به‌روزرسانی تنها چند ماه پس از عرضه اولیه Gemma 4 منتشر شده و در ادامه مسیر توسعه این مدل‌ها برای اجرای محلی و سبک‌تر قرار می‌گیرد. در این نسخه جدید، تمرکز اصلی روی این است که مدل‌های بزرگ زبانی بتوانند بدون نیاز به سخت‌افزارهای سنگین، روی دستگاه‌های معمولی هم اجرا شوند.

در روش QAT، برخلاف روش‌های سنتی که فشرده‌سازی بعد از آموزش انجام می‌شود، خود فرآیند Quantization داخل مرحله آموزش وارد می‌شود. همین موضوع باعث می‌شود افت کیفیت مدل در زمان کوچک‌سازی به حداقل برسد تا نتیجه بهتری از نظر کیفیت خروجی داشته باشد.

Gemma 4 در قالب چندین نسخه مختلف منتشر شده است. یکی از مهم‌ترین دستاوردها این است که نسخه E2B این مدل اکنون می‌تواند با کمتر از 1GB حافظه رم اجرا شود که آن را برای سیستم‌های قدیمی و حتی برخی گوشی‌های هوشمند قابل استفاده می‌کند.

برای رسیدن به این سطح از بهینه‌سازی، تغییرات عمیقی در ساختار فشرده‌سازی انجام شده که با معماری پردازنده‌های موبایل هماهنگ باشد و اجرای عملیات را ساده‌تر کند. بهینه‌سازی حافظه در بخش‌های مهم دیگری مانند embedding و KV cache نیز انجام شده است.

این بخش‌ها معمولاً نقش مهمی در حفظ حافظه کوتاه‌مدت مکالمه دارند و با فشرده‌سازی آن‌ها، امکان اجرای گفتگوهای طولانی‌تر بدون فشار زیاد به حافظه فراهم شده است. تیم توسعه این پروژه در Google DeepMind تأکید کرده که هدف اصلی این نسخه، آوردن مدل‌های پیشرفته به دستگاه‌های روزمره است.

در نهایت، این مدل‌ها به گونه‌ای طراحی شده‌اند که بتوانند در اکوسیستم‌های مختلف توسعه‌دهندگان مورد استفاده قرار بگیرند. از اجرا روی ابزارهایی مانند llama.cpp و Ollama گرفته تا استقرار با LiteRT-LM و حتی استفاده در پلتفرم‌هایی مانند vLLM و MLX برای Apple Silicon، همگی بخشی از سناریوهای پشتیبانی‌شده هستند.

لینک دانلود مدل هوش مصنوعی Gemma 4 QAT گوگل

اما گوگل اعلام کرده است که مدل‌های جدید از طریق پلتفرم Hugging Face در دسترس قرار گرفته‌اند و کاربران می‌توانند نسخه‌ Q4_0 و همچنین نسخه‌ مخصوص موبایل را مستقیماً دانلود کنند.

نظرات کاربرانکپی متنکپی لینک