ترجمه صوتی در لحظه

هوش مصنوعی Gemini 3.5 Live Translate معرفی شد

تکفارس
نویسنده: عباس پور اشرف
چهارشنبه 20 خرداد 1405
هوش مصنوعی Gemini 3.5 Live Translate مگ
گوگل از مدل هوش مصنوعی جدید Gemini 3.5 Live Translate برای ترجمه صوتی در لحظه رونمایی کرد.

گوگل از مدل هوش مصنوعی جدید Gemini 3.5 Live Translate برای ترجمه صوتی در لحظه رونمایی کرد.

این ابزار به گونه‌ای طراحی شده که هنگام ترجمه، لحن، سرعت بیان و زیروبم صدای گوینده اصلی را حفظ می‌کند و برای تضمین امنیت، نشان‌ دیجیتال SynthID را در خروجی خود قرار می‌دهد.

گوگل سال‌هاست که در تلاش برای دستیابی به ترجمه هم‌زمان است؛ هدفی که خود آن را یکی از تجربه‌های پیشگامانه یادگیری ماشین می‌داند. در گذشته، نمایش‌های متعددی از این تکنولوژی را در مراسم‌های گوگل دیده بودیم، اما همواره نیاز به استفاده از گوشی‌های پیکسل، هندزفری‌های خاص یا تجهیزات جانبی دیگر بود. سال گذشته، این شرکت قابلیت ترجمه زنده را برای طیف وسیع‌تری از کاربران در اپلیکیشن Translate فعال کرد و حالا با معرفی Gemini 3.5 Live Translate، این دسترسی گسترده‌تر شده و سرعت پاسخ‌دهی سیستم نیز به شکل محسوسی افزایش یافته است.

این مدل هوش مصنوعی جدید، عضوی از خانواده نسخه ۳.۵ است که در کنفرانس I/O معرفی شد. تا پیش از امروز، گوگل تنها نسخه Flash را عرضه کرده بود، اما انتظار داریم مدل Pro نیز در هفته‌های آینده منتشر شود. مدل Gemini 3.5 Live Translate برای درک و ترجمه خودکار بیش از ۷۰ زبان مختلف بهینه شده است.

گوگل می‌گوید این مدل به قدری سریع عمل می‌کند که می‌تواند همگام با یک گفتگوی عادی پیش برود و تنها با چند ثانیه تأخیر نسبت به گوینده، ترجمه را با رعایت دقیق لحن، ریتم و آهنگ صدا ارائه دهد. به عبارت ساده‌تر، صدای ترجمه‌شده به جای اینکه شبیه ربات‌های معمولی باشد، شباهت بیشتری به صدای خود کاربر دارد. نمایش‌های اولیه‌ای که در شرایط کنترل‌شده ضبط شده‌اند، بسیار تأثیرگذار به نظر می‌رسند و کاربران به زودی فرصت دارند تا خودشان عملکرد این مدل را ارزیابی کنند.

قابلیت Gemini 3.5 Live Translate به‌تدریج در بخش‌های مختلف اکوسیستم گوگل جای می‌گیرد. توسعه‌دهندگان می‌توانند از همین حالا کار با پیش‌نمایش عمومی آن را در Gemini Live API یا AI Studio آغاز کنند. این مدل پردازش صدا را به صورت پیوسته انجام می‌دهد و ورودی‌های چندزبانه را به‌طور خودکار مدیریت می‌کند تا توسعه‌دهندگان نیازی به تنظیمات دستی نداشته باشند. همچنین، این سیستم قادر است نویز محیط‌های شلوغ را نیز حذف کند.

برخی از مشتریان سازمانی نیز از همین ماه به این مدل ترجمه در Google Meet دسترسی خواهند یافت تا در نهایت برای عموم عرضه شود. گوگل اعلام کرده که در حال تغییر رابط کاربری Meet است تا ویژگی ترجمه زنده را در دسترس‌تر قرار دهد. نکته مهم‌تر اینکه این قابلیت به زودی به اپلیکیشن Google Translate در سیستم‌عامل‌های اندروید و آی‌او‌اس اضافه خواهد شد.

در اواخر سال گذشته، گوگل آزمایش ترجمه زنده مبتنی بر جمینای را برای هر نوع هندزفری (و در نسخه آی‌او‌اس اپلیکیشن) آغاز کرد؛ این در حالی است که پیش‌تر تنها استفاده از هندزفری‌های پیکسل با گوشی‌های اندرویدی ممکن بود. به‌روزرسانی پیش رو، با اضافه شدن آخرین مدل ۳.۵، این قابلیت را بیش از پیش گسترش می‌دهد. شما نه تنها می‌توانید از هر ایرباد استفاده کنید، بلکه حتی نیازی به آن ندارید. اگر هندزفری همراه ندارید، می‌توانید گوشی را مانند زمان مکالمه تلفنی کنار گوش خود بگیرید تا ترجمه صوتی را بشنوید. البته در حال حاضر، این حالت شنیداری تنها در اندروید کار می‌کند.

با استفاده از این حالت شنیداری جدید، کاربران می‌توانند ترجمه انگلیسی یک تور گردشگری اسپانیایی را به صورت تقریباً آنی و مستقیماً از طریق بلندگوی گوشی خود بشنوند.

خروجی صوتی Gemini 3.5 Live Translate به گونه‌ای طراحی شده که حتی اگر دقیقاً صدای کاربر را تقلید نکند، کاملاً طبیعی به نظر برسد. با این حال، گوگل همچنان با احتیاط عمل می‌کند؛ تمامی جریان‌های صوتی تولیدشده توسط این مدل، دارای واترمارک‌های SynthID هستند. این کار مشخص می‌کند که صدا توسط هوش مصنوعی ساخته شده و در حال حاضر راهی برای حذف این نشانه وجود ندارد.

نظرات کاربرانکپی متنکپی لینک