گوگل از انتشار مدل جدیدی به نام Gemini 3.5 Live Translate خبر داده است.
این مدل، جدیدترین سیستم ترجمه زنده صوتی از گفتار به گفتار گوگل محسوب میشود و قرار است کاربران بهزودی بتوانند از آن استفاده کنند.
به گفته گوگل، Gemini 3.5 Live Translate قادر است به طور خودکار بیش از ۷۰ زبان را تشخیص دهد. همچنین میتواند ترجمههایی با صدای طبیعی تولید کند که آهنگ صدا، سرعت و زیروبمی گوینده را حفظ نماید. افزون بر این، این مدل میتواند به طور پیوسته گفتار ترجمه شده را تولید کند، برخلاف سیستمهای نوبت به نوبت که منتظر میمانند تا گوینده حرفش را تمام کند.
گوگل اعلام کرده که Gemini 3.5 Live Translate به تدریج در سرویس گوگل میت عرضه خواهد شد. پس از این عرضه، پشتیبانی از بیش از ۷۰ زبان فراهم میشود که بهبود قابل توجهی نسبت به محدودیت فعلی که فقط پنج زبان است، محسوب میگردد. یکی دیگر از نکات برجسته این است که در یک جلسه آنلاین، بیش از ۲۰۰۰ ترکیب زبانی امکانپذیر خواهد شد. پیش از این، ترجمه گفتار در میت فقط به زبان انگلیسی و از انگلیسی انجام میگرفت. گوگل همچنین قصد دارد ظاهر کاربری میت را بهروزرسانی کند تا دسترسی به ترجمه گفتار سریعتر انجام شود.
نسخه بهبودیافته ترجمه گفتار در میت ابتدا به صورت پیشنمایش خصوصی برای گروهی از مشتریان تجاری سرویس Google Workspace عرضه میشود. این عرضه اولیه، برای تاریخ نامشخصی در اواخر همین ماه برنامهریزی شده است. اما گوگل قصد دارد این قابلیت را بعداً در سال جاری در اختیار کاربران بیشتری قرار دهد.
Gemini 3.5 Live Translate همچنین در سطح جهانی و روی اپلیکیشن Translate برای اندروید و آیاواس ارائه خواهد شد. همزمان با این انتشار، گوگل حالت جدید گوش دادن (listening mode) را نیز برای اندروید معرفی میکند. این حالت جدید، علاوه بر قابلیت گوش دادن به ترجمههای زنده از طریق هدفون، امکان شنیدن ترجمه را مستقیماً از بلندگوی جلوی گوشی نیز فراهم میآورد.
مانند تمام محتوای تولید شده توسط هوش مصنوعی، خروجی صوتی Gemini 3.5 Live Translate با واترمارک SynthID نشانهگذاری خواهد شد. SynthID یک واترمارک نامرئی است که برای جلوگیری از اطلاعات جعلی استفاده میشود. گوگل میگوید که این واترمارک مستقیماً در درون خروجی صوتی در هم تنیده خواهد شد.