ترجمه صوتی در لحظه

هوش مصنوعی Gemini 3.5 Live Translate معرفی شد

تکفارس

نویسنده: عباس پور اشرف

چهارشنبه 20 خرداد 1405

هوش مصنوعی Gemini 3.5 Live Translate مگ — گوگل از مدل هوش مصنوعی جدید Gemini 3.5 Live Translate برای ترجمه صوتی در لحظه رونمایی کرد.

گوگل از مدل هوش مصنوعی جدید Gemini 3.5 Live Translate برای ترجمه صوتی در لحظه رونمایی کرد.

این ابزار به گونه‌ای طراحی شده که هنگام ترجمه، لحن، سرعت بیان و زیروبم صدای گوینده اصلی را حفظ می‌کند و برای تضمین امنیت، نشان‌ دیجیتال SynthID را در خروجی خود قرار می‌دهد.

گوگل سال‌هاست که در تلاش برای دستیابی به ترجمه هم‌زمان است؛ هدفی که خود آن را یکی از تجربه‌های پیشگامانه یادگیری ماشین می‌داند. در گذشته، نمایش‌های متعددی از این تکنولوژی را در مراسم‌های گوگل دیده بودیم، اما همواره نیاز به استفاده از گوشی‌های پیکسل، هندزفری‌های خاص یا تجهیزات جانبی دیگر بود. سال گذشته، این شرکت قابلیت ترجمه زنده را برای طیف وسیع‌تری از کاربران در اپلیکیشن Translate فعال کرد و حالا با معرفی Gemini 3.5 Live Translate، این دسترسی گسترده‌تر شده و سرعت پاسخ‌دهی سیستم نیز به شکل محسوسی افزایش یافته است.

این مدل هوش مصنوعی جدید، عضوی از خانواده نسخه ۳.۵ است که در کنفرانس I/O معرفی شد. تا پیش از امروز، گوگل تنها نسخه Flash را عرضه کرده بود، اما انتظار داریم مدل Pro نیز در هفته‌های آینده منتشر شود. مدل Gemini 3.5 Live Translate برای درک و ترجمه خودکار بیش از ۷۰ زبان مختلف بهینه شده است.

گوگل می‌گوید این مدل به قدری سریع عمل می‌کند که می‌تواند همگام با یک گفتگوی عادی پیش برود و تنها با چند ثانیه تأخیر نسبت به گوینده، ترجمه را با رعایت دقیق لحن، ریتم و آهنگ صدا ارائه دهد. به عبارت ساده‌تر، صدای ترجمه‌شده به جای اینکه شبیه ربات‌های معمولی باشد، شباهت بیشتری به صدای خود کاربر دارد. نمایش‌های اولیه‌ای که در شرایط کنترل‌شده ضبط شده‌اند، بسیار تأثیرگذار به نظر می‌رسند و کاربران به زودی فرصت دارند تا خودشان عملکرد این مدل را ارزیابی کنند.

قابلیت Gemini 3.5 Live Translate به‌تدریج در بخش‌های مختلف اکوسیستم گوگل جای می‌گیرد. توسعه‌دهندگان می‌توانند از همین حالا کار با پیش‌نمایش عمومی آن را در Gemini Live API یا AI Studio آغاز کنند. این مدل پردازش صدا را به صورت پیوسته انجام می‌دهد و ورودی‌های چندزبانه را به‌طور خودکار مدیریت می‌کند تا توسعه‌دهندگان نیازی به تنظیمات دستی نداشته باشند. همچنین، این سیستم قادر است نویز محیط‌های شلوغ را نیز حذف کند.

برخی از مشتریان سازمانی نیز از همین ماه به این مدل ترجمه در Google Meet دسترسی خواهند یافت تا در نهایت برای عموم عرضه شود. گوگل اعلام کرده که در حال تغییر رابط کاربری Meet است تا ویژگی ترجمه زنده را در دسترس‌تر قرار دهد. نکته مهم‌تر اینکه این قابلیت به زودی به اپلیکیشن Google Translate در سیستم‌عامل‌های اندروید و آی‌او‌اس اضافه خواهد شد.

در اواخر سال گذشته، گوگل آزمایش ترجمه زنده مبتنی بر جمینای را برای هر نوع هندزفری (و در نسخه آی‌او‌اس اپلیکیشن) آغاز کرد؛ این در حالی است که پیش‌تر تنها استفاده از هندزفری‌های پیکسل با گوشی‌های اندرویدی ممکن بود. به‌روزرسانی پیش رو، با اضافه شدن آخرین مدل ۳.۵، این قابلیت را بیش از پیش گسترش می‌دهد. شما نه تنها می‌توانید از هر ایرباد استفاده کنید، بلکه حتی نیازی به آن ندارید. اگر هندزفری همراه ندارید، می‌توانید گوشی را مانند زمان مکالمه تلفنی کنار گوش خود بگیرید تا ترجمه صوتی را بشنوید. البته در حال حاضر، این حالت شنیداری تنها در اندروید کار می‌کند.

با استفاده از این حالت شنیداری جدید، کاربران می‌توانند ترجمه انگلیسی یک تور گردشگری اسپانیایی را به صورت تقریباً آنی و مستقیماً از طریق بلندگوی گوشی خود بشنوند.

خروجی صوتی Gemini 3.5 Live Translate به گونه‌ای طراحی شده که حتی اگر دقیقاً صدای کاربر را تقلید نکند، کاملاً طبیعی به نظر برسد. با این حال، گوگل همچنان با احتیاط عمل می‌کند؛ تمامی جریان‌های صوتی تولیدشده توسط این مدل، دارای واترمارک‌های SynthID هستند. این کار مشخص می‌کند که صدا توسط هوش مصنوعی ساخته شده و در حال حاضر راهی برای حذف این نشانه وجود ندارد.

گوگل

دیگران در مورد این خبر چه نظری دارن، کلیک کن!

نظرت و اینجا بنویس و با سایر کاربران گفتگو کن

پربازدیدترین خبرها

لیست قیمت گوشی آیفون

لیست قیمت گوشی آیفون ( امروز سه‌شنبه ۱۲ خرداد ۱۴۰۵) + جدول

محدودیت ۲۰ مگابایتی ارسال فایل در پیام‌رسان بله

تعرفه هر دقیقه مکالمه بین‌شبکه‌ای از تلفن‌همراه به تلفن ثابت برای سیم‌کارت‌های دائمی ۸۱۲ ریال و برای سیم‌کارت‌های اعتباری ۱۲۱۸ ریال خواهد بود، همچنین محاسبه کارکرد مکالمات مشترکان تلفن‌همراه، به‌صورت ثانیه‌ای انجام می‌شود.

تعرفه تلفن همراه ۱۴۰۵ / هزینه هر دقیقه مکالمه و ارسال یک پیام چقدر تمام می‌شود؟

کارت سوخت خودرو صفر را چطور دریافت کنیم؟

شرکت Anthropic به‌تازگی از مدل هوش مصنوعی محرمانه به نام Mythos رونمایی کرده که گفته می‌شود توانسته بدون کمک انسان و در مدتی بسیار کوتاه، بیش از 150 آسیب‌پذیری روز صفر را در نرم‌افزارها و ابزارهای امنیتی پیدا کند.

پشت پرده Mythos؛ هوش مصنوعی ترسناک انتروپیک واقعاً چقدر قدرتمند است؟

خبرهای مرتبط

شرکت اسپیس ایکس از ساخت کارخانه عظیم Gigasat در شهر باستروپ ایالت تگزاس خبر داد که قرار است از سال ۲۰۲۷ تولید ماهواره‌های هوش مصنوعی را برای ایجاد مراکز داده مداری آغاز کند.

اسپیس ایکس تولید ماهواره‌های هوش مصنوعی را آغاز می‌ کند

گوگل با معرفی مجموعه محدود Chrome Dino FC برای جام جهانی ۲۰۲۶ هیجان‌سازی کرده، اما عرضه آن به بریتانیا محدود است و دیگر کشورها با تاخیرهای طولانی و محدودیت‌های شدید دسترسی روبه‌رو هستند.