چگونه هوش مصنوعی می‌تواند گفته‌های شما را پیش بینی کند؟

هوش مصنوعی امروزه به دلیل پیشرفت‌های بسیاری که داشته، جایگاه ویژه‌ای در جهان یافته است و حالا به جایی رسیده که می‌تواند ذهن انسان را نیز بخواند.

جی پلاس، به نقل از مدیکال اکسپرس، در چند سال گذشته، مدل‌های هوش مصنوعی زبان در برخی وظایف بسیار خوب شده‌اند. مهم‌تر از همه، آن‌ها در پیش‌بینی کلمه بعدی در یک رشته متن عالی هستند. این فناوری به موتور‌های جستجو و اپلیکیشن‌های پیامک کمک می‌کند کلمه بعدی را که قرار است تایپ کنید پیش بینی کنند.

به نظر می‌رسد که جدیدترین نسل از مدل‌های زبان پیش‌بینی‌کننده نیز چیزی در مورد معنای اصلی زبان می‌آموزد. این مدل‌ها نه تنها می‌توانند کلمه بعدی را پیش‌بینی کنند، بلکه کار‌هایی را نیز انجام می‌دهند که به نظر می‌رسد به درجاتی از درک واقعی نیاز دارند، مانند پاسخ به سؤال، خلاصه‌سازی اسناد و تکمیل داستان.

چنین مدل‌هایی برای بهینه‌سازی عملکرد برای عملکرد خاص پیش‌بینی متن طراحی شده‌اند، بدون اینکه تلاشی برای تقلید چیزی درباره نحوه انجام این کار توسط مغز انسان یا درک زبان انجام شود؛ اما یک مطالعه جدید از دانشمندان علوم اعصاب MIT نشان می‌دهد که عملکرد زیربنایی این مدل‌ها شبیه عملکرد مراکز پردازش زبان در مغز انسان است.

مدل‌های رایانه‌ای که در انواع دیگر وظایف زبانی به خوبی عمل می‌کنند، این شباهت را به مغز انسان نشان نمی‌دهند و شواهدی ارائه می‌دهند که مغز انسان ممکن است از پیش‌بینی کلمه بعدی برای هدایت پردازش زبان استفاده کند.

نانسی کانویشر، استاد علوم اعصاب شناختی، عضو مؤسسه تحقیقات مغز و مرکز مغز‌ها در MIT، می‌گوید: هرچه مدل در پیش بینی کلمه بعدی بهتر باشد، بیشتر با مغز انسان منطبق است. این شگفت‌انگیز است که مدل‌ها به خوبی تناسب دارند و به طور غیرمستقیم نشان می‌دهند که شاید آنچه سیستم زبان انسان انجام می‌دهد پیش‌بینی اتفاقات بعدی باشد.

جاشوا تننبام، استاد علوم شناختی محاسباتی در MIT و عضو CBMM و آزمایشگاه هوش مصنوعی MIT (CSAIL)؛ و اولینا فدورنکو، دانشیار علوم اعصاب و یکی از اعضای موسسه مک گاورن، نویسندگان ارشد این مطالعه هستند که این هفته در مجموعه مقالات آکادمی ملی علوم منتشر شد. مارتین شریمپ، دانشجوی کارشناسی ارشد MIT که در CBMM کار می‌کند، اولین نویسنده مقاله است.

پیشگویی

مدل‌های پیش‌بینی کلمه بعدی جدید و با کارآیی بالا متعلق به دسته‌ای از مدل‌ها به نام شبکه‌های عصبی عمیق هستند. این شبکه‌ها حاوی «گره‌های» محاسباتی هستند که اتصالات با قدرت متفاوت را تشکیل می‌دهند و لایه‌هایی که اطلاعات را به روش‌های تعیین شده بین یکدیگر منتقل می‌کنند.

در دهه گذشته، دانشمندان از شبکه‌های عصبی عمیق برای ایجاد مدل‌هایی از بینایی استفاده کرده‌اند که می‌تواند اشیاء را همانند مغز نخستی‌ها تشخیص دهد. تحقیقات در MIT همچنین نشان داده است که عملکرد زیربنایی مدل‌های تشخیص جسم بصری با سازماندهی قشر بینایی نخستی‌سانان مطابقت دارد، حتی اگر این مدل‌های رایانه‌ای به طور خاص برای تقلید از مغز طراحی نشده باشند.

در مطالعه جدید، تیم MIT از رویکرد مشابهی برای مقایسه مراکز پردازش زبان در مغز انسان با مدل‌های پردازش زبان استفاده کرد. محققان ۴۳ مدل زبان مختلف را تجزیه و تحلیل کردند، از جمله چندین مدل که برای پیش‌بینی کلمه بعدی بهینه شده‌اند. این‌ها شامل مدلی به نام GPT-۳ (Generative Pre-trained Transformer ۳) می‌شود که در صورت درخواست، می‌تواند متنی مشابه آنچه یک انسان تولید می‌کند، تولید کند. مدل‌های دیگر برای انجام وظایف زبانی مختلف، مانند پر کردن جای خالی یک جمله، طراحی شده بودند.

از آنجایی که هر مدل با رشته‌ای از کلمات ارائه می‌شد، محققان فعالیت گره‌هایی را که شبکه را تشکیل می‌دهند اندازه‌گیری کردند. آن‌ها سپس این الگو‌ها را با فعالیت در مغز انسان مقایسه کردند که در افراد سه وظیفه زبانی: گوش دادن به داستان ها، خواندن جملات یک به یک، و خواندن جملاتی که در آن یک کلمه در یک زمان آشکار می‌شود، اندازه گیری شد. این مجموعه داده‌های انسانی شامل داده‌های رزونانس مغناطیسی عملکردی (fMRI) و اندازه‌گیری‌های الکتروکورتیکوگرافی داخل جمجمه‌ای بود، در افرادی که تحت عمل جراحی مغز برای صرع قرار می‌گرفتند.

آن‌ها دریافتند بهترین عملکرد مدل‌های پیش بینی کلمه بعدی دارای الگو‌های فعالیتی است که بسیار شبیه به آنچه در مغز انسان دیده می‌شود، است. فعالیت در همان مدل‌ها نیز با معیار‌های رفتاری انسان، مانند سرعت خواندن متن توسط افراد، ارتباط زیادی داشت.

شریمف می‌گوید: ما دریافتیم مدل‌هایی که پاسخ‌های عصبی را به خوبی پیش‌بینی می‌کنند، به بهترین شکل ممکن واکنش‌های رفتاری انسان را در قالب زمان خواندن پیش‌بینی می‌کنند و سپس هر دوی این‌ها با عملکرد مدل در پیش‌بینی کلمه بعدی توضیح داده می‌شوند. این مثلث واقعا همه چیز را به هم متصل می‌کند.

تغییر دهنده‌ی بازی

یکی از ویژگی‌های محاسباتی کلیدی مدل‌های پیش‌بینی‌کننده مانند GPT-۳، عنصری است که به عنوان ترانسفورماتور پیش‌بینی یکطرفه شناخته می‌شود. این نوع ترانسفورماتور می‌تواند بر اساس توالی‌های قبلی، پیش‌بینی کند که چه اتفاقی قرار است بیفتد. یکی از ویژگی‌های مهم این ترانسفورماتور این است که می‌تواند بر اساس یک زمینه بسیار طولانی قبلی (صد‌ها کلمه) پیش بینی کند، نه فقط چند کلمه آخر.

تننبام می‌گوید دانشمندان مدار‌های مغزی یا مکانیسم‌های یادگیری را که با این نوع پردازش مطابقت داشته باشد، نیافتند. او می‌گوید با این حال، یافته‌های جدید با فرضیه‌هایی که قبلا مطرح شده بود، مطابقت دارد که پیش‌بینی یکی از کارکرد‌های کلیدی در پردازش زبان است.

او می‌گوید: یکی از چالش‌های پردازش زبان، جنبه بلادرنگ آن است. زبان وارد می‌شود و شما باید با آن همراه باشید و بتوانید در زمان واقعی آن را درک کنید.

اکنون محققان قصد دارند انواعی از این مدل‌های پردازش زبان را بسازند تا ببینند که چگونه تغییرات کوچک در معماری آن‌ها بر عملکرد و توانایی آن‌ها در تناسب با داده‌های عصبی انسان تاثیر می‌گذارد.

فدورنکو می‌گوید: برای من، این نتیجه یک تغییر بازی بود. این برنامه تحقیقاتی من را کاملا متحول می‌کند، زیرا پیش بینی نمی‌کردم که در طول زندگی‌ام به این مدل‌های محاسباتی صریح برسیم که به اندازه کافی از مغز عکس می‌گیرند تا بتوانیم در درک نحوه عملکرد مغز از آن‌ها استفاده کنیم.

محققان همچنین قصد دارند این مدل‌های زبانی با کارآیی بالا را با برخی از مدل‌های رایانه‌ای که قبلا آزمایشگاه تننبام توسعه داده است، ترکیب کنند که می‌تواند انواع دیگری از وظایف مانند ساختن بازنمایی‌های ادراکی از دنیای فیزیکی را انجام دهد.

تننبام می‌گوید: اگر بتوانیم بفهمیم این مدل‌های زبانی چه کار می‌کنند و می‌توانند به مدل‌هایی متصل شوند که کار‌هایی را انجام می‌دهند که بیشتر شبیه ادراک و تفکر است، آنگاه می‌توانیم مدل‌های یکپارچه‌تری از نحوه عملکرد چیز‌ها در مغز به ما ارائه دهیم. این می‌تواند ما را به سمت مدل‌های هوش مصنوعی بهتر سوق دهد و همچنین مدل‌های بهتری از نحوه عملکرد بیشتر مغز و چگونگی ظهور هوش عمومی نسبت به گذشته به ما دهد.