خداحافظی با متن‌های به‌هم‌ریخته در تصاویر هوش مصنوعی

انگجت
engadget.com
پنجنشبه 03 اردیبهشت 1405
خداحافظی با متن‌های به‌هم‌ریخته در تصاویر هوش مصنوعی
مدل «چت‌جی‌پی‌تی ایمیجز ۲.۰» بی‌سر و صدا یک مشکل قدیمی را کم‌رنگ کرده؛ ضعفی که همیشه خروجی تصاویر هوش مصنوعی را لو می‌داد.

به نقل از انگجت، مدل «چت‌جی‌پی‌تی ایمیجز ۲.۰» حالا رسماً معرفی شده است. این مدل جدید نسبت به نسخه‌های قبلی در دنبال‌کردن دقیق دستورها، نمایش متن‌های فشرده و چیدمان درست عناصر در صحنه پیشرفت زیادی کرده است. نکته مهم‌تر این است که برای اولین بار، یک مدل تصویری با قابلیت «استدلال» ساخته شده که می‌تواند کارهایی مثل جست‌وجوی وب و بررسی صحت خروجی‌هایش را انجام دهد؛ قابلیتی که به گفته شرکت، باعث افزایش دقت، ثبات و انسجام بصری می‌شود.

یکی از پیشرفت‌های مهم این مدل، بهبود چشمگیر در نمایش متن‌های غیرلاتین است. اوپن‌ای‌آی اعلام کرده که «ایمیجز ۲.۰» در پردازش زبان‌هایی مثل ژاپنی، کره‌ای، چینی، هندی و بنگالی عملکرد بسیار بهتری دارد و توانسته پیشرفت قابل‌توجهی در این زمینه ثبت کند. علاوه بر این، مدل جدید بهتر می‌تواند ویژگی‌های خاص سبک‌های بصری مختلف را بازسازی کند؛ موضوعی که آن را برای کارهایی مثل طراحی اولیه بازی (گیم پروتوتایپینگ) و استوری‌بوردینگ بسیار کاربردی‌تر می‌کند. از نظر فنی هم انعطاف‌پذیری بیشتری دارد و می‌تواند تصاویر را با نسبت‌های مختلف (تا ۳ به ۱ یا ۱ به ۳) و رزولوشن تا ۲K تولید کند، حتی تا ۸ خروجی را همزمان ارائه دهد.

در آزمایش‌هایی که قبل از انتشار عمومی انجام شده، از این مدل خواسته شد تصویر یک گربه لاک‌پشتی را به سبک پیکسل‌آرت بازی‌های نسل سوم «پوکمون» بسازد؛ سبکی که معمولاً برای مدل‌های هوش مصنوعی چالش‌برانگیز است. نتیجه قابل‌قبول بود و مدل توانست به‌خوبی به آن سبک نزدیک شود. سپس از آن خواسته شد همان تصویر را به فرمت پی ان جی شفاف تبدیل کند که با موفقیت انجام شد، هرچند خروجی کمی با تصویر اولیه تفاوت داشت. در آزمایش دیگر، مدل یک مانگای چهارصفحه‌ای درباره گربه‌ای که روزی آفتابی را کنار یک رود شهری می‌گذراند تولید کرد که نشان‌دهنده توانایی آن در روایت بصری است.

در نهایت، «ایمیجز ۲.۰» از امروز برای همه کاربران چت‌جی‌پی‌تی، حتی کاربران رایگان و نسخه «گو»، در دسترس قرار گرفته است؛ هرچند کاربران پلاس و پرو به امکانات پیشرفته‌تری دسترسی دارند. همچنین این مدل از طریق ای پی آی و اپلیکیشن کدنویسی «کدکس» هم ارائه شده که اخیراً به قابلیت تولید تصویر مجهز شده است. این عرضه در حالی انجام می‌شود که شرکت آنتروپیک هم به‌تازگی وارد بازار طراحی بصری شده و رقابت در این حوزه را جدی‌تر کرده است.

نظرات کاربرانکپی متنکپی لینک