@ai_new_ir

دسترسی آسان‌تر هوش مصنوعی به داده‌های ویکی‌پدیا


ویکی‌مدیا در روز چهارشنبه از یک پایگاه داده جدید خبر داد که اطلاعات بی‌نظیر ویکی‌پدیا را برای مدل‌های هوش مصنوعی قابل دسترسی‌تر می‌کند.

این سیستم که به نام پروژه ویکیدیتا امبدینگ شناخته می‌شود، با استفاده از یک تکنیک جستجوی معنایی مبتنی بر بردار - که به کامپیوترها کمک می‌کند معنای کلمات و روابط آنها را درک کنند - به داده‌های موجود در ویکی‌پدیا و پلتفرم‌های خواهر آن می‌پردازد، که شامل نزدیک به 120 میلیون ورودی است.

در ترکیب با پشتیبانی جدید برای پروتکل مدل کانتکست (MCP)، یک استاندارد که به سیستم‌های هوش مصنوعی کمک می‌کند تا با منابع داده ارتباط برقرار کنند، این پروژه داده‌ها را برای پرسش‌های زبانی طبیعی از مدل‌های زبانی بزرگ (LLM) قابل دسترسی‌تر می‌کند.

این پروژه توسط شاخه آلمانی ویکی‌مدیا با همکاری شرکت جستجوی عصبی Jina.AI و شرکت DataStax، که تحت مالکیت IBM قرار دارد، انجام شده است.

برای سال‌ها، ویکیدیتا داده‌های قابل‌خواندن توسط ماشین را از دارایی‌های ویکی‌مدیا ارائه داده است، اما ابزارهای پیشین تنها به جستجوهای کلیدی و درخواست‌های SPARQL محدود بودند. سیستم جدید بهتر با سیستم‌های تولید بازیابی افزوده (RAG) کار خواهد کرد که به مدل‌های هوش مصنوعی اجازه می‌دهد اطلاعات خارجی را وارد کنند، به توسعه‌دهندگان فرصتی می‌دهد تا مدل‌های خود را بر اساس دانشی که توسط ویرایشگران ویکی‌پدیا تأیید شده است، پایه‌گذاری کنند.

داده‌ها همچنین به گونه‌ای ساختار یافته‌اند که زمینه معنایی مهمی را فراهم می‌کنند. جستجو در پایگاه داده برای کلمه «دانشمند»، برای مثال، فهرستی از دانشمندان هسته‌ای برجسته و همچنین دانشمندانی که در آزمایشگاه‌های Bell کار کرده‌اند، به دست می‌آورد. ترجمه‌های کلمه «دانشمند» به زبان‌های مختلف، تصویر تأیید شده ویکی‌مدیا از دانشمندان در حال کار، و تعمقاتی به مفاهیم مرتبط مانند «پژوهشگر» و «عالم» نیز وجود دارد.

پایگاه داده به صورت عمومی در Toolforge در دسترس است و ویکیدیتا نیز در 9 اکتبر یک وبینار برای توسعه‌دهندگان علاقه‌مند برگزار می‌کند.

این پروژه جدید در حالی وارد می‌شود که توسعه‌دهندگان هوش مصنوعی به دنبال منابع داده با کیفیت بالا برای بهبود مدل‌های خود هستند. سیستم‌های آموزشی خود پیچیده‌تر شده‌اند - اکثراً به عنوان محیط‌های آموزشی پیچیده‌تر و نه مجموعه داده ساده - اما همچنان به داده‌های دقیق مورد نیاز است. برای اجراهایی که دقت بالا نیاز دارند، نیاز به داده‌ی قابل اعتماد به شدت فوری است، و در حالی که برخی ممکن است به ویکی‌پدیا نگاه کمتر مساعدی داشته باشند، داده‌های آن به‌طور قابل توجهی بیشتر به واقعیت نزدیک‌تر از مجموعه داده‌های عمومی مانند Common Crawl است، که یک مجموعه عظیم از صفحات وب است که از سراسر اینترنت جمع‌آوری شده‌اند.

در برخی موارد، فشار برای داده‌های باکیفیت می‌تواند عواقب گرانی برای آزمایشگاه‌های هوش مصنوعی داشته باشد. در ماه آگوست، Anthropic پیشنهاد تسویه‌حساب دعاوی با گروهی از نویسندگانی که آثارشان به عنوان معیار آموزش داده‌ها استفاده شده بود را ارائه داد، با توافق برای پرداخت 1.5 میلیارد دلار برای خاتمه دادن به هر گونه ادعای خطا.

در بیانیه‌ای به رسانه‌ها، مدیر پروژه هوش مصنوعی ویکیدیتا فیلیپ سعاده بر استقلال پروژه خود از آزمایشگاه‌های اصلی هوش مصنوعی یا شرکت‌های بزرگ فناوری تأکید کرد. "این پروژه امبدینگ نشان می‌دهد که هوش مصنوعی قدرتمند نیازی به کنترل توسط چند شرکت ندارد،" سعاده به خبرنگاران گفت. "این می‌تواند باز، مشارکتی و برای خدمت به همه ساخته شود."