این رقم پیش از عرضه ChatGPT در نوامبر ۲۰۲۲ تقریباً صفر بود و همین مسئله نشان میدهد که رشد محتوای ماشینی در اینترنت با سرعتی کمسابقه رخ داده است.
این پژوهش را گروهی مشترک از دانشگاه استنفورد کالج سلطنتی لندن و آرشیو اینترنت انجام دادهاند و بیان کردهاند که پیش از عرضه ChatGPT در نوامبر ۲۰۲۲ سهم محتوای تولیدشده با هوش مصنوعی تقریبا صفر بود اما اکنون رشد آن با سرعتی کمسابقه ادامه دارد.
این مطالعه با عنوان «تأثیر متن تولیدشده با هوش مصنوعی بر اینترنت» بر پایه بررسی ۳۳ ماه داده از آرشیو Wayback Machine انجام شده است. پژوهشگران برای طبقهبندی صفحات وب از ابزار تشخیص متن Pangram v3 استفاده کردند تا مشخص شود چه میزان از صفحات توسط انسان نوشته شدهاند، چه میزان با هوش مصنوعی ساخته شدهاند و چه مقدار نیز ترکیبی از هر دو هستند.
جوناش دولژال، پژوهشگر کالج سلطنتی لندن و از نویسندگان این مقاله اعلام کرد که سرعت نفوذ هوش مصنوعی به فضای وب شگفتآور است. به گفته او، اینترنت پس از دههها شکلگیری به دست انسانها، تنها در سه سال اخیر به شکلی جدی تحت تأثیر تولیدات ماشینی قرار گرفته است.
محققان در این پژوهش شش فرضیه رایج درباره آثار منفی محتوای تولیدشده با هوش مصنوعی را بررسی کردند، اما تنها دو مورد از آنها با شواهد آماری تأیید شد. نخستین اثر تأییدشده، کاهش تنوع معنایی در فضای وب است. نتایج نشان داد که صفحات تولیدشده با هوش مصنوعی از نظر شباهت معنایی، ۳۳ درصد بیشتر از صفحات نوشتهشده توسط انسان به یکدیگر نزدیک هستند. به بیان ساده، ایدههای مشابه بارها با ساختارها و بیانهای نزدیک به هم تکرار میشوند.
پژوهشگران معتقد هستند که این روند میتواند باعث محدود شدن تدریجی «پنجره اورتون» در فضای آنلاین شود؛ نه از طریق سانسور یا عملیات هماهنگ، بلکه به این دلیل که مدلهای زبانی معمولاً خروجیهایی نزدیک به دادههای آموزشی خود تولید میکنند. در نتیجه، تنوع دیدگاهها و شیوههای بیان ممکن است به مرور کاهش یابد.
دومین اثر تأییدشده، افزایش مثبتنمایی مصنوعی در محتوای اینترنت است. بررسیها نشان داد که امتیاز احساس مثبت در صفحات تولیدشده با هوش مصنوعی بیش از ۱۰۷ درصد بالاتر از محتوای انسانی است. پژوهشگران این مسئله را ناشی از گرایش چاپلوسانه مدلهای زبانی بزرگ میدانند، چرا که این سامانهها بر پایه بازخوردهای انسانی آموزش دیدهاند و معمولاً متنهایی نرم، بیتنش، پالایششده و خوشبینانه تولید میکنند.
به باور نویسندگان مقاله، اگر چنین محتوایی به صورت گسترده در وب غالب شود، ممکن است صداهای انتقادی، روایتهای تلخ یا دیدگاههای مخالف بدون دخالت مستقیم کسی به حاشیه رانده شوند و فضای آنلاین بیش از حد خوشرنگ و بیاصطکاک به نظر برسد.
با وجود نگرانیهای عمومی، پژوهشگران هیچ شواهد آماری معناداری پیدا نکردند که نشان دهد محتوای هوش مصنوعی دقت factual اینترنت را کاهش داده است. آنها میان افزایش سهم صفحات AI و نرخ خطاهای واقعی ارتباط مهمی مشاهده نکردند. این یافته برخلاف یکی از رایجترین نگرانیهای عمومی درباره گسترش محتوای ماشینی است.
همچنین فرضیه دیگری که در میان مردم بسیار پرطرفدار بود، یعنی یکنواخت شدن سبک نوشتارها نیز تأیید نشد. در نظرسنجی انجامشده همزمان با این پژوهش، ۸۳ درصد پاسخدهندگان معتقد بودند هوش مصنوعی صداهای فردی را از بین میبرد و همه متون را به سبکی یکسان تبدیل میکند. با وجود این، تحلیل سطح نویسهها و الگوهای نگارشی، افزایش معناداری در همگونی سبکی نشان نداد.
یکی از مهمترین هشدارهای این گزارش به آینده مدلهای هوش مصنوعی مربوط میشود. محققان اعلام کردند اکنون که ۳۵ درصد از محتوای تازه وب به صورت ماشینی تولید میشود، خطر «فروپاشی مدل» دیگر صرفاً یک بحث نظری نیست. این مفهوم به وضعیتی اشاره دارد که در آن مدلهای نسل آینده با دادههایی آموزش میبینند که خود محصول مدلهای قبلی هستند و در نتیجه، خطا، تکرار و فقر معنایی در آنها انباشته میشود.
از آنجا که بسیاری از شرکتهای فناوری برای آموزش مدلهای جدید از دادههای خزیدهشده از وب استفاده میکنند، جلوگیری کامل از ورود این محتوای مصنوعی به چرخه آموزش بسیار دشوار خواهد بود.
تیم پژوهشی اکنون با Internet Archive همکاری میکند تا این مطالعه را به سامانهای زنده و دائمی برای رصد سهم هوش مصنوعی از وب تبدیل کند. هدف آن است که بهجای ارائه یک تصویر مقطعی، تغییرات این شاخص در زمان واقعی دنبال شود.
نتایج نظرسنجی همزمان با این مطالعه نیز نشان داد که بیشتر آمریکاییها هر شش فرضیه منفی درباره محتوای AI را باور دارند؛ حتی مواردی را که دادهها تأیید نکردهاند. همچنین افرادی که کمتر از ابزارهای هوش مصنوعی استفاده میکنند، ۱۲ درصد بیشتر از کاربران پرتکرار به این آسیبها باور دارند.
این پژوهش نشان میدهد که اینترنت هنوز زنده و انسانی است، اما بخش قابل توجهی از محتوای تازه آن اکنون با امضای ماشین منتشر میشود.