@ai_new_ir

سرمایه‌گذاری بزرگ سیلیکون ولی روی «محیط‌های تمرینی» برای آموزش عوامل هوش مصنوعی


برای سال‌ها، رؤسای بزرگ فناوری، چشم‌اندازهایی از عوامل هوش مصنوعی داشته‌اند که می‌توانند به طور مستقل از برنامه‌های نرم‌افزاری استفاده کنند تا کارها را برای مردم انجام دهند. اما اگر عوامل هوش مصنوعی فعلی مانند Agent ChatGPT یا Comet را استفاده کنید، به سرعت متوجه خواهید شد که فناوری هنوز محدود باقی مانده است. ایجاد عوامل هوش مصنوعی قوی‌تر ممکن است نیازمند تکنیک‌های جدیدی باشد که صنعت هنوز در حال کشف آن‌هاست.

یکی از این تکنیک‌ها شبیه‌سازی دقیق محیط‌های کاری است که عوامل می‌توانند در آن‌ها بر روی وظایف چند مرحله‌ای آموزش ببینند - که به عنوان محیط‌های یادگیری تقویتی (RL) شناخته می‌شوند. به همان شکلی که داده‌های برچسب‌دار موج قبلی از هوش مصنوعی را موجب شد، محیط‌های RL در حال تبدیل شدن به یک عنصر حیاتی در توسعه عوامل هوش مصنوعی هستند.

پژوهشگران هوش مصنوعی، بنیان‌گذاران و سرمایه‌گذاران به TechCrunch اعلام کرده‌اند که آزمایشگاه‌های برتر هوش مصنوعی اکنون به دنبال محیط‌های RL بیشتری هستند و کمبود استارتاپ‌هایی که به دنبال تأمین آن‌ها هستند، وجود ندارد.

خانم جنیفر لی، شریک عمومی در آندرسن هوروویتز، در مصاحبه با TechCrunch گفت: "همه آزمایشگاه‌های بزرگ هوش مصنوعی در حال ساختن محیط‌های RL داخلی هستند." ایجاد این داده‌ها بسیار پیچیده است، بنابراین آزمایشگاه‌های هوش مصنوعی به دنبال فروشندگان ثالثی هستند که بتوانند محیط‌ها و ارزیابی‌های با کیفیت بالا ایجاد کنند.

این تمایل منجر به پیدایش یک دسته جدید از استارتاپ‌های با بودجه درخشان شده است، مانند Mechanize Work و Prime Intellect، که هدفشان تصاحب این فضاست. در همین حال، شرکت‌های بزرگ برچسب‌گذاری داده‌ها مانند Mercor و Surge اعلام کرده‌اند که سرمایه‌گذاری بیشتری در محیط‌های RL برای سازگاری با تغییرات صنعت از مجموعه داده‌های ثابت به شبیه‌سازی‌های تعاملی انجام می‌دهند.

محیط‌های RL در اصل زمینه‌هایی برای آموزش ایجاد می‌کنند که عامل هوش مصنوعی در یک نرم‌افزار واقعی چگونه عمل خواهد کرد. برای مثال، یک محیط می‌تواند یک مرورگر کروم را شبیه‌سازی کند و عاملی را برای خرید یک جفت جوراب در آمازون موظف کند. عامل بر اساس عملکردش ارزیابی شده و هنگام موفقیت پاداش می‌گیرد.

با وجود این که چنین وظایفی به طور نسبی ساده به نظر می‌رسند، اما بسیاری از جاها وجود دارد که عامل هوش مصنوعی ممکن است سرگردان شود. ممکن است در منوهای کشویی گم شود یا جوراب‌های زیادی خریداری کند. و از آنجا که توسعه‌دهندگان نمی‌توانند پیش‌بینی کنند که یک عامل دقیقاً کجا اشتباه می‌کند، محیط خود بایستی به اندازه کافی مقاوم باشد تا هرگونه رفتار غیرمنتظره را جذب کند و همچنان بازخورد مفیدی ارائه دهد.

برخی محیط‌ها بسیار قدرتمند هستند و به عوامل هوش مصنوعی اجازه می‌دهند از ابزارها، اینترنت، یا نرم‌افزارهای مختلف استفاده کنند تا وظایف داده شده را کامل کنند. دیگر محیط‌ها محدودتر بوده و برای کمک به یادگیری عامل در برنامه‌های نرم‌افزاری تجاری خاص طراحی شده‌اند.

شرکت‌های برچسب‌گذاری داده‌های هوش مصنوعی مانند Scale AI، Surge و Mercor تلاش می‌کنند تا محیط‌های RL را گسترش دهند. این شرکت‌ها منابع بیشتری نسبت به بسیاری از استارتاپ‌های این حوزه دارند، به علاوه روابط عمیقی با آزمایشگاه‌های هوش مصنوعی برقرار کرده‌اند.

به گفته مدیر عامل Surge، آقای ادوین چن، در مصاحبه با TechCrunch تقاضای زیادی برای محیط‌های RL در آزمایشگاه‌های هوش مصنوعی دیده شده است. Surge، که گفته می‌شود سال گذشته ۱.۲ میلیارد دلار درآمد داشته است، اخیراً یک سازمان داخلی ایجاد کرده که به طور خاص وظیفه ساخت محیط‌های RL را بر عهده دارد.