گوگل از اعلام میزان توهم و عدم دقت مدل Gemini 3.5 خودداری می‌کند

ایمنا

imna.ir

جمعه 08 خرداد 1405

گوگل از اعلام میزان توهم و عدم دقت مدل Gemini 3.5 خودداری می‌کند — هوش مصنوعی Gemini 3.5 flash گوگل با سرعتی ۴ برابر مدل‌های پیشرو و قیمت ۴ تا ۶ برابر ارزان‌تر عرضه شد، اما نرخ توهم ۹۱ درصدی در بعضی آزمون‌ها، استفاده از آن در کاربردهای حساس به دقت را با چالش روبه‌رو کرده است.

گوگل در کنفرانس توسعه‌دهندگان I/O 2026 مدل جدید هوش مصنوعی خود با نام «Gemini 3.5 flash » را معرفی کرد.

این مدل که بخشی از خانواده جمینای ۳.۵ است، با تمرکز بر اجرای سریع و کارآمد «ایجنت‌های هوش مصنوعی» (برنامه‌های خودکار چندمرحله‌ای) و کدنویسی طراحی شده و هم‌اکنون از طریق اپلیکیشن جمینای، حالت هوش مصنوعی در جستجوی گوگل، و پلتفرم‌های توسعه‌دهندگان در دسترس است.

فهرست مطالب

▼

مقدمه
سرعت و هوش در یک بسته
قیمت‌گذاری رقابتی
چالش بزرگ؛ نرخ بالای توهم

سرعت و هوش در یک بسته

Gemini 3.5 flash ادعا می‌کند که هوشی هم‌سطح مدل‌های بزرگ و پرچمدار را با سرعتی قابل‌توجه ارائه می‌دهد. بر اساس شاخص هوش مصنوعی Artificial Analysis، این مدل در تولید خروجی به سرعت ۲۸۰ توکن در ثانیه می‌رسد که حدود ۴ برابر سریع‌تر از سایر مدل‌های پیشرو است، همچنین در بنچمارک‌های کدنویسی مانند SWE-bench Verified و Toolathon، عملکردی بهتر از جمینای ۳.۱ پرو نشان داده است.

قیمت‌گذاری رقابتی

یکی از نقاط قوت اصلی این مدل، ساختار قیمت‌گذاری آن است: ۰.۵۰ دلار به ازای هر ۱ میلیون توکن ورودی و ۳ دلار برای توکن‌های خروجی. این قیمت‌ها ۴ تا ۶ برابر ارزان‌تر از جمینای ۳ پرو هستند و Gemini 3.5 flash را به گزینه‌ای جذاب برای استارت‌آپ‌ها، توسعه‌دهندگان مستقل و برنامه‌های پرحجم تبدیل می‌کند.

چالش بزرگ؛ نرخ بالای توهم

با وجود نقاط قوت فنی، یک ضعف جدی در گزارش‌های مستقل برجسته شده است. در آزمون «آمنی‌ساینس» (Omniscience) که تمایل مدل به تولید اطلاعات نادرست را می‌سنجد، جمینای ۳ فلش نرخ توهم ۹۱ درصدی ثبت کرده است؛ به این معنا که در بیش از ۹ از ۱۰ موردی که پاسخ را نمی‌داند، به‌جای اقرار به نادانی، پاسخی نادرست اما با اعتمادبه‌نفس تولید می‌کند.

این ویژگی استفاده از مدل را در کاربردهای حساس به دقت، نظیر سیستم‌های پرسش‌وپاسخ پزشکی، تحلیل داده‌های حقوقی یا پشتیبانی مشتریان پرریسک می‌سازد، با این حال برای وظایفی همچون تولید محتوای خلاقانه، نمونه‌سازی سریع کد یا خلاصه‌سازی متون غیرحیاتی، این محدودیت ممکن است کمتر مشکل‌ساز باشد.