رشد انفجاری محتوای ماشینی؛ ۳۵ درصد اینترنت جدید در اختیار هوش مصنوعی

تکناک
نویسنده: نرگس چالوک
پنجنشبه 10 اردیبهشت 1405
رشد انفجاری محتوای ماشینی؛ ۳۵ درصد اینترنت جدید در اختیار هوش مصنوعی
پژوهشگران در گزارشی تازه اعلام کردند که تا میانه سال ۲۰۲۵ حدود ۳۵ درصد از محتوای وب‌سایت‌های تازه‌منتشرشده با هوش مصنوعی تولید شده‌اند یا در فرایند تولید آنها از ابزارهای هوش مصنوعی استفاده شده است.

این رقم پیش از عرضه ChatGPT در نوامبر ۲۰۲۲ تقریباً صفر بود و همین مسئله نشان می‌دهد که رشد محتوای ماشینی در اینترنت با سرعتی کم‌سابقه رخ داده است.

این پژوهش را گروهی مشترک از دانشگاه استنفورد کالج سلطنتی لندن و آرشیو اینترنت انجام داده‌اند و بیان کرده‌اند که پیش از عرضه ChatGPT در نوامبر ۲۰۲۲ سهم محتوای تولیدشده با هوش مصنوعی تقریبا صفر بود اما اکنون رشد آن با سرعتی کم‌سابقه ادامه دارد.

این مطالعه با عنوان «تأثیر متن تولیدشده با هوش مصنوعی بر اینترنت» بر پایه بررسی ۳۳ ماه داده از آرشیو Wayback Machine انجام شده است. پژوهشگران برای طبقه‌بندی صفحات وب از ابزار تشخیص متن Pangram v3 استفاده کردند تا مشخص شود چه میزان از صفحات توسط انسان نوشته شده‌اند، چه میزان با هوش مصنوعی ساخته شده‌اند و چه مقدار نیز ترکیبی از هر دو هستند.

جوناش دولژال، پژوهشگر کالج سلطنتی لندن و از نویسندگان این مقاله اعلام کرد که سرعت نفوذ هوش مصنوعی به فضای وب شگفت‌آور است. به گفته او، اینترنت پس از دهه‌ها شکل‌گیری به دست انسان‌ها، تنها در سه سال اخیر به شکلی جدی تحت تأثیر تولیدات ماشینی قرار گرفته است.

محققان در این پژوهش شش فرضیه رایج درباره آثار منفی محتوای تولیدشده با هوش مصنوعی را بررسی کردند، اما تنها دو مورد از آنها با شواهد آماری تأیید شد. نخستین اثر تأییدشده، کاهش تنوع معنایی در فضای وب است. نتایج نشان داد که صفحات تولیدشده با هوش مصنوعی از نظر شباهت معنایی، ۳۳ درصد بیشتر از صفحات نوشته‌شده توسط انسان به یکدیگر نزدیک هستند. به بیان ساده، ایده‌های مشابه بارها با ساختارها و بیان‌های نزدیک به هم تکرار می‌شوند.

پژوهشگران معتقد هستند که این روند می‌تواند باعث محدود شدن تدریجی «پنجره اورتون» در فضای آنلاین شود؛ نه از طریق سانسور یا عملیات هماهنگ، بلکه به این دلیل که مدل‌های زبانی معمولاً خروجی‌هایی نزدیک به داده‌های آموزشی خود تولید می‌کنند. در نتیجه، تنوع دیدگاه‌ها و شیوه‌های بیان ممکن است به‌ مرور کاهش یابد.

دومین اثر تأییدشده، افزایش مثبت‌نمایی مصنوعی در محتوای اینترنت است. بررسی‌ها نشان داد که امتیاز احساس مثبت در صفحات تولیدشده با هوش مصنوعی بیش از ۱۰۷ درصد بالاتر از محتوای انسانی است. پژوهشگران این مسئله را ناشی از گرایش چاپلوسانه مدل‌های زبانی بزرگ می‌دانند، چرا که این سامانه‌ها بر پایه بازخوردهای انسانی آموزش دیده‌اند و معمولاً متن‌هایی نرم، بی‌تنش، پالایش‌شده و خوش‌بینانه تولید می‌کنند.

به باور نویسندگان مقاله، اگر چنین محتوایی به‌ صورت گسترده در وب غالب شود، ممکن است صداهای انتقادی، روایت‌های تلخ یا دیدگاه‌های مخالف بدون دخالت مستقیم کسی به حاشیه رانده شوند و فضای آنلاین بیش از حد خوش‌رنگ و بی‌اصطکاک به نظر برسد.

با وجود نگرانی‌های عمومی، پژوهشگران هیچ شواهد آماری معناداری پیدا نکردند که نشان دهد محتوای هوش مصنوعی دقت factual اینترنت را کاهش داده است. آنها میان افزایش سهم صفحات AI و نرخ خطاهای واقعی ارتباط مهمی مشاهده نکردند. این یافته برخلاف یکی از رایج‌ترین نگرانی‌های عمومی درباره گسترش محتوای ماشینی است.

همچنین فرضیه دیگری که در میان مردم بسیار پرطرفدار بود، یعنی یکنواخت شدن سبک نوشتارها نیز تأیید نشد. در نظرسنجی انجام‌شده هم‌زمان با این پژوهش، ۸۳ درصد پاسخ‌دهندگان معتقد بودند هوش مصنوعی صداهای فردی را از بین می‌برد و همه متون را به سبکی یکسان تبدیل می‌کند. با وجود این، تحلیل سطح نویسه‌ها و الگوهای نگارشی، افزایش معناداری در همگونی سبکی نشان نداد.

یکی از مهم‌ترین هشدارهای این گزارش به آینده مدل‌های هوش مصنوعی مربوط می‌شود. محققان اعلام کردند اکنون که ۳۵ درصد از محتوای تازه وب به‌ صورت ماشینی تولید می‌شود، خطر «فروپاشی مدل» دیگر صرفاً یک بحث نظری نیست. این مفهوم به وضعیتی اشاره دارد که در آن مدل‌های نسل آینده با داده‌هایی آموزش می‌بینند که خود محصول مدل‌های قبلی هستند و در نتیجه، خطا، تکرار و فقر معنایی در آنها انباشته می‌شود.

از آنجا که بسیاری از شرکت‌های فناوری برای آموزش مدل‌های جدید از داده‌های خزیده‌شده از وب استفاده می‌کنند، جلوگیری کامل از ورود این محتوای مصنوعی به چرخه آموزش بسیار دشوار خواهد بود.

تیم پژوهشی اکنون با Internet Archive همکاری می‌کند تا این مطالعه را به سامانه‌ای زنده و دائمی برای رصد سهم هوش مصنوعی از وب تبدیل کند. هدف آن است که به‌جای ارائه یک تصویر مقطعی، تغییرات این شاخص در زمان واقعی دنبال شود.

نتایج نظرسنجی هم‌زمان با این مطالعه نیز نشان داد که بیشتر آمریکایی‌ها هر شش فرضیه منفی درباره محتوای AI را باور دارند؛ حتی مواردی را که داده‌ها تأیید نکرده‌اند. همچنین افرادی که کمتر از ابزارهای هوش مصنوعی استفاده می‌کنند، ۱۲ درصد بیشتر از کاربران پرتکرار به این آسیب‌ها باور دارند.

این پژوهش نشان می‌دهد که اینترنت هنوز زنده و انسانی است، اما بخش قابل توجهی از محتوای تازه آن اکنون با امضای ماشین منتشر می‌شود.

نظرات کاربرانکپی متنکپی لینک