گوگل از مدل هوش مصنوعی جدید Gemini 3.5 Live Translate برای ترجمه صوتی در لحظه رونمایی کرد.
این ابزار به گونهای طراحی شده که هنگام ترجمه، لحن، سرعت بیان و زیروبم صدای گوینده اصلی را حفظ میکند و برای تضمین امنیت، نشان دیجیتال SynthID را در خروجی خود قرار میدهد.
گوگل سالهاست که در تلاش برای دستیابی به ترجمه همزمان است؛ هدفی که خود آن را یکی از تجربههای پیشگامانه یادگیری ماشین میداند. در گذشته، نمایشهای متعددی از این تکنولوژی را در مراسمهای گوگل دیده بودیم، اما همواره نیاز به استفاده از گوشیهای پیکسل، هندزفریهای خاص یا تجهیزات جانبی دیگر بود. سال گذشته، این شرکت قابلیت ترجمه زنده را برای طیف وسیعتری از کاربران در اپلیکیشن Translate فعال کرد و حالا با معرفی Gemini 3.5 Live Translate، این دسترسی گستردهتر شده و سرعت پاسخدهی سیستم نیز به شکل محسوسی افزایش یافته است.
این مدل هوش مصنوعی جدید، عضوی از خانواده نسخه ۳.۵ است که در کنفرانس I/O معرفی شد. تا پیش از امروز، گوگل تنها نسخه Flash را عرضه کرده بود، اما انتظار داریم مدل Pro نیز در هفتههای آینده منتشر شود. مدل Gemini 3.5 Live Translate برای درک و ترجمه خودکار بیش از ۷۰ زبان مختلف بهینه شده است.
گوگل میگوید این مدل به قدری سریع عمل میکند که میتواند همگام با یک گفتگوی عادی پیش برود و تنها با چند ثانیه تأخیر نسبت به گوینده، ترجمه را با رعایت دقیق لحن، ریتم و آهنگ صدا ارائه دهد. به عبارت سادهتر، صدای ترجمهشده به جای اینکه شبیه رباتهای معمولی باشد، شباهت بیشتری به صدای خود کاربر دارد. نمایشهای اولیهای که در شرایط کنترلشده ضبط شدهاند، بسیار تأثیرگذار به نظر میرسند و کاربران به زودی فرصت دارند تا خودشان عملکرد این مدل را ارزیابی کنند.
قابلیت Gemini 3.5 Live Translate بهتدریج در بخشهای مختلف اکوسیستم گوگل جای میگیرد. توسعهدهندگان میتوانند از همین حالا کار با پیشنمایش عمومی آن را در Gemini Live API یا AI Studio آغاز کنند. این مدل پردازش صدا را به صورت پیوسته انجام میدهد و ورودیهای چندزبانه را بهطور خودکار مدیریت میکند تا توسعهدهندگان نیازی به تنظیمات دستی نداشته باشند. همچنین، این سیستم قادر است نویز محیطهای شلوغ را نیز حذف کند.
برخی از مشتریان سازمانی نیز از همین ماه به این مدل ترجمه در Google Meet دسترسی خواهند یافت تا در نهایت برای عموم عرضه شود. گوگل اعلام کرده که در حال تغییر رابط کاربری Meet است تا ویژگی ترجمه زنده را در دسترستر قرار دهد. نکته مهمتر اینکه این قابلیت به زودی به اپلیکیشن Google Translate در سیستمعاملهای اندروید و آیاواس اضافه خواهد شد.
در اواخر سال گذشته، گوگل آزمایش ترجمه زنده مبتنی بر جمینای را برای هر نوع هندزفری (و در نسخه آیاواس اپلیکیشن) آغاز کرد؛ این در حالی است که پیشتر تنها استفاده از هندزفریهای پیکسل با گوشیهای اندرویدی ممکن بود. بهروزرسانی پیش رو، با اضافه شدن آخرین مدل ۳.۵، این قابلیت را بیش از پیش گسترش میدهد. شما نه تنها میتوانید از هر ایرباد استفاده کنید، بلکه حتی نیازی به آن ندارید. اگر هندزفری همراه ندارید، میتوانید گوشی را مانند زمان مکالمه تلفنی کنار گوش خود بگیرید تا ترجمه صوتی را بشنوید. البته در حال حاضر، این حالت شنیداری تنها در اندروید کار میکند.
با استفاده از این حالت شنیداری جدید، کاربران میتوانند ترجمه انگلیسی یک تور گردشگری اسپانیایی را به صورت تقریباً آنی و مستقیماً از طریق بلندگوی گوشی خود بشنوند.
خروجی صوتی Gemini 3.5 Live Translate به گونهای طراحی شده که حتی اگر دقیقاً صدای کاربر را تقلید نکند، کاملاً طبیعی به نظر برسد. با این حال، گوگل همچنان با احتیاط عمل میکند؛ تمامی جریانهای صوتی تولیدشده توسط این مدل، دارای واترمارکهای SynthID هستند. این کار مشخص میکند که صدا توسط هوش مصنوعی ساخته شده و در حال حاضر راهی برای حذف این نشانه وجود ندارد.