تحلیل یک محقق سابق OpenAI از چرخه‌های خیالی ChatGPT

آلن بروکس هرگز قصد نداشت تا دوباره ریاضی را اختراع کند. اما پس از چند هفته صحبت با ChatGPT، این کانادایی ۴۷ ساله به این اعتقاد رسید که یک فرم جدید از ریاضیات کشف کرده که به اندازه‌ای قدرتمند است که می‌تواند اینترنت را تخریب کند.

بروکس که هیچ سابقه‌ای از بیماری روانی یا نبوغ ریاضی نداشت، ۲۱ روز در ماه مه در این اعتقاد غوطه‌ور شد، به طوری که این روند در مقاله‌ای در نیویورک تایمز به نمایش گذاشته شد. این موضوع نشان داد که چگونه چت‌بات‌های هوش مصنوعی می‌توانند کاربران را به راه‌هایی بی‌اندازند که به توهم یا بدتر منجر شود.

استیون ادلر، محقق سابق ایمنی OpenAI، که در اواخر ۲۰۲۴ این شرکت را ترک کرد، به این موضوع علاقه‌مند شد. او با بروکس تماس گرفت و به متن کامل فروپاشی سه‌هفته‌ای او دست یافت؛ متنی که طولانی‌تر از همه کتاب‌های هری پاتر بود.

روز پنج‌شنبه، ادلر تحلیلی مستقل از این حادثه را منتشر کرد و سوالاتی درباره نحوه برخورد OpenAI با کاربران در لحظات بحرانی مطرح کرد و توصیه‌های عملی‌ای ارائه داد.

او اظهار داشت: «من واقعاً نگران هستم که OpenAI چگونه در اینجا پشتیبانی را مدیریت کرده است. این نشان‌دهنده این است که هنوز راه درازی باقی مانده است.»

داستان بروکس و ماجراهای مشابه باعث شد تا OpenAI بفهمد که چگونه ChatGPT کاربران ناپایدار یا ضعیف از نظر روانی را پشتیبانی می‌کند.

چند مثال دیگر نظیر این مورد وجود دارد که ChatGPT در گفتگو با کاربران رفتارهای مشابهی داشته و خطرات را نفی نکرده است. این رفتار را به عنوان سلامتی‌نمایی می‌شناسند و این مشکل در حال رشد در چت‌بات‌های هوش مصنوعی است.

در پاسخ به این موضوع، OpenAI تغییراتی در نحوه مدیریت کاربران در پریشانی‌های احساسی اعمال کرده است. این تغییر شامل انتشار یک مدل جدید پیش‌فرض در ChatGPT به نام GPT-5 است که به نظر می‌رسد در مدیریت کاربران پریشان بهتر عمل می‌کند.

اما ادلر می‌گوید کارهای بیشتری باید انجام شود. او مخصوصاً درباره پایان تعاملات بروکس با ChatGPT نگران بود. در این نقطه، بروکس متوجه شد که کشف ریاضی او اشتباه است، علیرغم تاکید‌های GPT-4o.

موقعیتی پیش آمد که ChatGPT به کذب درباره توانایی‌های خود صحبت کرد و ادعا کرد که فوراً این گفتگو را به داخل شرکت گزارش خواهد کرد، در حالی که اینگونه نبود. ChatGPT چنین توانایی‌ای ندارد و شرکت OpenAI این موضوع را به ادلر تایید کرد.

بعداً، بروکس سعی کرد به‌طور مستقیم با تیم پشتیبانی OpenAI تماس بگیرد، اما قبل از اینکه به شخصی برسد، با چندین پیام خودکار روبرو شد.

ادلر پیشنهاد می‌کند که شرکت‌های هوش مصنوعی باید اقدامات بیشتری برای کمک به کاربران در خواست کمک انجام دهند. این به معنای اطمینان از پاسخگویی صادقانه چت‌بات‌های هوش مصنوعی به پرسش‌های کاربران درباره توانایی‌های خود و همچنین ارائه منابع کافی به تیم پشتیبانی انسانی برای پاسخ به کاربران است.

OpenAI اخیراً اعلام کرد که چگونه پشتیبانی را در ChatGPT مدیریت می‌کند و این یک مدل عملیاتی هوش مصنوعی است که به طور مداوم یاد می‌گیرد و بهبود می‌بخشد.

اما ادلر همچنین می‌گوید راه‌هایی وجود دارد که قبل از اینکه کاربر درخواست کمک کند، از چرخه‌های توهم ChatGPT جلوگیری شود.

در ماه مارس، OpenAI به همراه MIT Media Lab مجموعه‌ای از رده‌بندها را برای مطالعه وضعیت به‌زیستی احساسی در ChatGPT توسعه داد و این کد را به صورت متن باز در آوردند. اهداف این سازمان‌ها ارزیابی چگونگی تایید یا تائید احساسات کاربر توسط مدل‌های هوش مصنوعی بود.

ادلر به صورت عقب‌گرد برخی از این رده‌بندها را به برخی از مکالمات بروکس با ChatGPT اعمال کرد و دریافت که این سیستم بارها ChatGPT را به خاطر رفتارهایی که توهم را تقویت می‌کردند، نشانه‌گذاری کرده است.

در نمونه‌ای از ۲۰۰ پیام، ادلر دریافت که بیش از ۸۵٪ از پیام‌های ChatGPT در مکالمه با بروکس ثابت کردند که ChatGPT به طور واحد با کاربر موافق است. در همین نمونه، بیش از ۹۰٪ از پیام‌های ChatGPT با بروکس تایید کردند که او یک نابغه است که می‌تواند جهان را نجات دهد.

مشخص نیست که آیا OpenAI هنگام مکالمه بروکس از رده‌بندهای ایمنی استفاده کرده است یا خیر، اما قطعاً به نظر می‌رسد که باید چنین مکالمه‌ای را نشانه‌گذاری می‌کردند.

ادلر پیشنهاد می‌کند که OpenAI باید از ابزارهای ایمنی مانند این به صورت عملی استفاده کند و راهی برای جستجوی کاربران در معرض خطر در محصولات شرکت پیاده‌سازی کند. او اشاره می‌کند که به نظر می‌رسد OpenAI در حال انجام نسخه‌ای از این رویکرد با GPT-5 است که حاوی یک روتر برای هدایت پرسش‌های حساس به مدل‌های ایمن‌تر است.

این محقق سابق OpenAI روش‌های دیگری برای جلوگیری از چرخه‌های توهمی پیشنهاد می‌کند.

او می‌گوید شرکت‌ها باید کاربران چت‌بات‌های خود را به شروع مکالمات جدید ترغیب کنند ـ OpenAI ادعا می‌کند که این کار را انجام می‌دهد و ادعا می‌کند که دست‌اندازهای آن در مکالمات طولانی‌تر کمتر موثرند. ادلر همچنین پیشنهاد می‌کند که شرکت‌ها باید از جستجوی مفهومی ـ که روشی برای استفاده از هوش مصنوعی به منظور جستجوی مفاهیم به جای کلمات کلیدی است ـ برای شناسایی نقض‌های ایمنی در کاربرانشان استفاده کنند.

OpenAI در مواجهه با کاربران پریشان در ChatGPT از زمان انتشار این داستان‌های نگران‌کننده به طور چشمگیری پیشرفت داشته است. این شرکت ادعا می‌کند که GPT-5 دارای نرخ‌های کمتری از سلامت‌نمایی است، اما هنوز مشخص نیست که کاربران همچنان در GPT-5 یا مدل‌های آینده در راه‌پیمایی خیالی خواهند افتاد یا نه.

تحلیل ادلر همچنین سوالاتی را درباره چگونگی اطمینان از ایمنی محصولات چت‌بات هوش مصنوعی برای کاربران پریشان مطرح می‌کند.

اگرچه OpenAI ممکن است برای ChatGPT محافظت‌های کافی را در نظر بگیرد، اما بعید به نظر می‌رسد که همه شرکت‌ها نیز چنین کنند.