انقلاب هوش مصنوعی در نگارش متن با مدل جدید ChatGPT

ایمنا
imna.ir
پنجنشبه 03 اردیبهشت 1405
ChatGPT Images 2.0
مدل جدید ChatGPT Images 2.0 با توانایی خیره‌کننده در نگارش صحیح کلمات درون تصاویر، محدودیت‌های گذشته را در تولید محتوای بصری و متنی به‌طور کامل از میان برداشته است.

در گذشته تشخیص تصاویر ساخته‌شده توسط هوش مصنوعی از نمونه‌های انسانی بسیار آسان بود. تنها دو سال پیش، استفاده از مدل‌های تصویری برای طراحی منوی یک رستوران مکزیکی موجب ابداع واژگان عجیب و غریبی می‌شد که هیچ شباهتی به املای صحیح خوراک‌ها نداشت، اما اکنون مدل جدید ChatGPT Images 2.0 با نگارش صحیح متن، منویی طراحی می‌کند که بدون هیچ نقصی در یک رستوران واقعی قابل استفاده است و مشتریان متوجه مصنوعی بودن آن نخواهند شد.

تولیدکننده‌های تصویر هوش مصنوعی پیش از این به‌دلیل استفاده از مدل‌های انتشار ( Diffusion) که تصاویر را از طریق بازسازی نویز تولید می‌کردند، در املای کلمات دچار مشکل بودند، پژوهشگران در سال‌های اخیر به سراغ مکانیسم‌های دیگری نظیر مدل‌های خودبازگشت (Autoregressive) رفته‌اند که عملکردی مشابه مدل‌های زبانی بزرگ دارند. با وجود این، OpenAI در نشست خبری اخیر خود از پاسخ به پرسشی درباره نوع دقیق مدل به کار رفته در Images 2.0 خودداری کرد.

این شرکت توضیح داد که مدل جدید قابلیت تفکر دارد، که به آن اجازه می‌دهد در وب جست‌وجو کند، از یک دستور واحد چندین تصویر بسازد و خروجی‌های خود را دوباره بررسی کند. این ویژگی‌ها، Images 2.0 را قادر می‌سازد تا دارایی‌های بازاریابی در ابعاد مختلف و حتی کمیک‌استریپ‌های چندپنلی تولید کند، همچنین این مدل در درک و نگارش متون غیرلاتین به زبان‌هایی همچون هندی، بنگالی، کره‌ای و ژاپنی توانایی بسیار بالایی پیدا کرده است. بر اساس بیانیه رسمی OpenAI، این مدل سطح بی‌سابقه‌ای از دقت را به ارمغان آورده است و می‌تواند جزئیات ظریفی همچون آیکون‌ها، عناصر رابط کاربری و ترکیب‌بندی‌های متراکم را با وضوح 2K رندر کند. اگرچه تولید تصاویر پیچیده چند دقیقه‌ای زمان می‌برد، اما کیفیت خروجی جهش بزرگی داشته است. دسترسی به این ابزار از روز سه‌شنبه برای همه کاربران آغاز شده و نسخه API آن نیز با نام gpt-image-2 در اختیار توسعه‌دهندگان قرار می‌گیرد.

نظرات کاربرانکپی متنکپی لینک