یک مطالعه جدید نشان داده است که مدلهای زبانی بزرگ در تشخیص بیماریها در بخش اورژانس، در بعضی موارد دقیقتر از پزشکان انسان عمل میکنند. این مطالعه که این هفته در مجله علمی Science منتشر شده، توسط تیمی از پژوهشگران دانشگاه هاروارد و یک مرکز پزشکی در بوستون انجام شده است. محققان آزمایشهای متعددی را برای مقایسه عملکرد مدلهای هوش مصنوعی اپنایآی با پزشکان انسانی ترتیب دادند.
در یکی از آزمایشها، محققان روی ۷۶ بیماری تمرکز کردند که به اورژانس این مرکز پزشکی مراجعه کرده بودند. آنها تشخیصهای ارائهشده توسط دو پزشک فوقتخصص داخلی را با تشخیصهای تولیدشده توسط مدلهای o۱ و o۴ اپنایآی مقایسه کردند. سپس دو پزشک دیگر که نمیدانستند کدام تشخیص متعلق به انسان و کدام متعلق به هوش مصنوعی است، این تشخیصها را ارزیابی کردند.
نتایج نشان داد مدل o۱ در هر مرحله از تشخیص، یا بهتر از دو پزشک عمل کرده یا همتراز آنها بوده است. این تفاوت بهویژه در مرحله اولیه، همان غربالگری اولیه در اورژانس، چشمگیرتر بود؛ جایی که کمترین اطلاعات از بیمار در دست است و بیشترین فوریت برای تصمیمگیری صحیح وجود دارد.
بر اساس بیانیه مطبوعاتی دانشگاه هاروارد، پژوهشگران تأکید کردند که دادهها را بههیچ وجه پیشپردازش نکردهاند؛ یعنی مدلهای هوش مصنوعی همان اطلاعاتی را دریافت کردند که در زمان تشخیص در پرونده الکترونیک پزشکی بیمار موجود بوده است. مدل o۱ توانست در ۶۷ درصد موارد، تشخیص دقیق یا بسیار نزدیک به تشخیص نهایی را ارائه دهد. این در حالی است که یکی از پزشکان در ۵۵ درصد موارد و دیگری در ۵۰ درصد موارد به تشخیص دقیق یا نزدیک دست یافتند.
آرجون مانرای، رئیس آزمایشگاه هوش مصنوعی در دانشگاه هاروارد و یکی از نویسندگان اصلی این مطالعه، گفت: «ما مدل هوش مصنوعی را تقریباً در برابر همه معیارهای استاندارد آزمایش کردیم و این مدل هم از مدلهای قبلی و هم از عملکرد پزشکان ما بهتر عمل کرد.» البته این مطالعه ادعا نمیکند هوش مصنوعی آماده تصمیمگیری مرگوزندگی در اورژانس است. بلکه یافتهها نشان میدهد که نیاز فوری به کارآزماییهای بالینی برای ارزیابی این فناوریها در محیطهای واقعی درمان وجود دارد.
پژوهشگران همچنین خاطرنشان کردند که این مطالعه فقط عملکرد مدلها را با اطلاعات متنی بررسی کرده و پژوهشهای موجود نشان میدهد که مدلهای بنیادین فعلی در استدلال بر روی ورودیهای غیرمتنی محدودیت دارند.
آدام رادمن، پزشک مرکز پزشکی بوستون و یکی دیگر از نویسندگان اصلی، اعلام کرد: «در حال حاضر هیچ چارچوب رسمی برای پاسخگویی در قبال تشخیصهای هوش مصنوعی وجود ندارد و بیماران همچنان میخواهند در تصمیمگیریهای مرگوزندگی و درمانهای دشوار، انسانها راهنمایشان باشند.»
کریستن پانتاگانی، پزشک اورژانس، در پستی درباره این مطالعه گفت: «این یک مطالعه جالب در زمینه هوش مصنوعی است که به بعضی تیترهای بسیار اغراقآمیز منجر شده است.» به اعتقاد او، این مطالعه تشخیص هوش مصنوعی را با پزشکان داخلی مقایسه کرده است، نه پزشکان اورژانس.
او افزود: «اگر میخواهیم ابزارهای هوش مصنوعی را با توانایی بالینی پزشکان مقایسه کنیم، باید با پزشکانی مقایسه کنیم که واقعاً در آن تخصص کار میکنند.» او همچنین تأکید کرد: «من بهعنوان پزشک اورژانس در اولین ویزیت، به دنبال تشخیص نهایی بیمار نیستم. هدف اصلی من این است که ببینم آیا بیماری تهدیدکنندهای وجود دارد که جان او را به خطر بیندازد یا خیر.»