رفتارهای مرموز هوش مصنوعی که علم برای آن پاسخی ندارد!

مدل‌های بزرگ هوش مصنوعی در یادگیری عمیق رفتار‌های پیش‌بینی نشده‌ای دارند.

کد خبر : 900355

آیا تا به حال فکر کرده‌اید که یک دستگاه مجهز به هوش مصنوعی مانند سیری یا الکسا چگونه می‌تواند صدای شما را درک کند و وظایفی را انجام دهد؟ پاسخ در چیزی به نام «یادگیری عمیق» نهفته است، فناوری‌ای که قدرت بیشتر سیستم‌های هوش مصنوعی امروزی وابسته به آن است. اما نکته اینجاست که حتی کارشناسان هم مطمئن نیستند که یادگیری عمیق دقیقاً چگونه یا چرا اینقدر خوب کار می‌کند!

اخیراً محققان شرکت اُپن ای آی، مستقر در سانفرانسیسکو، هنگام آزمایش مدل‌های زبانی بزرگ، به پدیده‌اس گیج‌کننده برخورد کردند. آن‌ها دریافتند که در مواردی خاص، این مدل‌ها می‌توانند تا مدت‌های طولانی یک کار را یاد نگیرند و «ناگهان» آن را در یک لحظه بیاموزند!

وقتی محققان شگفت‌زده شدند

دو سال پیش، یوری بوردا (Yuri Burda) و هری ادواردز (Harri Edwards)، محققان شرکت اُپن‌ای آی در تلاش بودند تا دریابند که برای دستیابی به یک مدل بزرگ زبانی برای انجام محاسبات پایه چه چیزی لازم است. آنها دریافتند که این مدل‌ها باید چند نمونه از جمع اعداد را ببینند تا بتوانند هر عددی را که به آنها داده می‌شود جمع کنند. آنها می‌خواستند ببینند آیا این مدل می‌تواند محاسبات اولیه را انجام دهد یا خیر. در ابتدا، خیلی چیز‌ها خوب پیش نمی‌رفت. مدل‌ها، اعدادی را که می‌دیدند حفظ می‌کردند، اما نمی‌توانستند موارد جدید را حل کنند.

بوردا و ادواردز برای برخی از آزمایش‌های خود زمان بسیار طولانی‌تری صرف کردند، روز‌ها به جای ساعت‌ها. محققان بار‌ها و بار‌ها محاسبات نمونه را به مدل‌ها نشان دادند تا زمانی که از موفقیت‌آمیز بودن آزمایش مطمئن شدند. آنها یک مدل بزرگ زبانی را آموزش داده بودند تا دو عدد را جمع کند که خیلی بیشتر از آن چیزی که فکرش را می‌کردند زمان برده بود.

کشف یک پدیده جدید

این دو محقق و همکارانشان در مورد پدیده‌ای جالب تحقیق کردند. آنها متوجه شدند که گاهی اوقات، مدل‌ها یک کار را اصلاً یاد نمی‌گیرند و بعد از مدتی ناگهان در یک لحظه شروع به یادگیری می‌کردند. آنها این پدیده را «گروکینگ» (Grokking) نامیدند که یک کلمه سرواژه‌سازی‌شده از مفهوم «تعمیم و انطباق در مجموعه داده‌های الگوریتمی کوچک» است. این پدیده نشان میدهد که چگونه کامپیوتر‌ها می‌توانند از گروه‌های کوچک اعداد و الگو‌ها یاد بگیرند. این روش یادگیری آن چیزی نبود که قرار بود یادگیری عمیق باشد.

مدل‌های زبانی بزرگ، مانند چت‌جی‌پی‌تی-۴ و جِمنای دیپ‌مایند گوگل توانایی انجام کار‌هایی شگفت‌انگیز دارند، اما جامعه علمی هنوز تلاش می‌کند بفهمد این مدل‌ها چگونه این کار را انجام می‌دهند. درک این فرایند بسیار مهم است، زیرا به کنترل مدل‌های آینده که قدرتمندتر هستند، کمک می‌کند.
گروکینگ تنها یکی از چندین پدیده غیرمنتظره‌ای است که محققان هوش مصنوعی را به حیرت انداخته است. این رفتار یک واقعیت مهم را در مورد یادگیری عمیق نشان می‌دهد: با وجود موفقیت بی‌نظیر، هیچ‌کس دقیقاً نمی‌داند که این فناوری چگونه کار می‌کند!

تعمیم غیرمنتظره در الگوها

بیشتر شگفتی‌ها ناشی از این است که مدل‌های هوش مصنوعی میتوانند پس از آموزش‌های جدید و یادگیری مجموعه‌ای از مثال‌ها آنها را به مثال‌هایی که قبلاً ندیدهاند تعمیم دهند و در الگو‌های جدید اعمال کنند. حتی گاهی اوقات، تعمیم زمانی اتفاق می‌افتد که انتظارش را نداریم. برای مثال، این مدل‌ها می‌توانند حل مسائل ریاضی را به زبان انگلیسی بیاموزند و سپس به حل مسائل ریاضی به زبان فرانسوی تعمیم دهند، که فراتر از آن چیزی است که فکرش را می‌کردیم.

فهمیدن اینکه چرا یادگیری عمیق اینقدر خوب کار می‌کند، فقط یک معمای علمی جذاب نیست بلکه کلیدی باشد برای باز کردن قفل نسل بعدی این فناوری و همچنین برای کنترل خطرات هولناک آن مهم است.

هوش مصنوعی در حال متحول کردن دنیایی است که در آن زندگی می‌کنیم، اما هنوز چیز‌های زیادی برای یادگیری در مورد نحوه کارکرد و بهبود آن وجود دارد.

این مطالعه در وبسایت تکنولوژی ریویو توسط ویل داگلاس هِوِن، نویسنده ارشد دانشگاه ام آی تی در حوزه هوش مصنوعی منتشر شده است.

انتهای پیام/